自然语言生成是否会被排名评估体系取代

人工智能指数报告2024节选(二):技术性能

2024年人工智能指数报告技术性能部分关键发现如下：AI任务表现差异显著超越人类的任务：AI在图像分类、视觉推理和英语理解等基准测试中已超越人类表现。例如，在ImageNet等经典数据集上，AI模型的准确率显著高于人类平均水平。落后于人类的任务：在竞赛级数学、视觉常识推理和复杂规划等任务中，AI仍落后于人类。例如，AI在解决需要多步骤推理的数学竞赛题时，正确率远低于人类专家。多模态AI崛起传统模型局限：传统AI系统功能单一，语言模型擅长文本理解但图像处理能力弱，计算机视觉模型则反之。多模态突破：谷歌Gemini和OpenAI GPT-4等模型实现了跨模态处理能力，可同时处理图像、文本和音频数据。例如，GPT-4能根据文本描述生成图像，或通过图像生成相关文本。更难基准测试涌现性能饱和问题：AI模型在ImageNet、SQuAD等传统基准测试中已接近性能上限，促使研究人员开发更具挑战性的新基准。2023年新基准：包括编码基准SWE-bench、图像生成基准HEIM、一般推理基准MMMU、道德推理基准MoCa、代理行为基准AgentBench和幻觉检测基准HaluEval。数据驱动的AI改进专用数据生成：SegmentAnything和Skoltech等模型被用于生成图像分割和3D重建等任务的专用数据。数据增强循环：AI生成的数据可进一步提升模型性能，形成“更好AI→更好数据→更好AI”的良性循环，尤其在复杂任务中效果显著。人类评估成为新趋势生成模型挑战：随着生成模型输出质量提升，传统计算化排名基准（如ImageNet）逐渐被融合人类评估的体系取代。评估方式转型：例如Chatbot Arena排行榜通过人类投票评估模型表现，更贴近真实使用场景。机器人技术融合语言模型灵活性提升：PaLM-E和RT-2等模型将语言建模与机器人控制结合，使机器人能理解自然语言指令并执行复杂任务。交互能力突破：这些模型可主动提问以澄清指令，标志着机器人向更高效现实世界交互迈出关键一步。代理AI技术进展复杂任务掌握：自主AI代理系统已能掌握Minecraft等复杂游戏，并在在线购物、研究协助等真实场景中展现实用价值。环境适应能力：新兴研究表明，代理AI在动态环境中的决策和执行能力正在持续提升。封闭模型性能优势基准测试表现：在10个选定基准中，封闭模型的中位性能比开放模型高24.2%，尤其在数学推理和复杂任务处理上优势明显。政策影响：这一差异对AI政策辩论具有重要意义，可能影响开源与闭源模型的发展路径选择。

nginx