自然语言生成是否会被排名评估体系取代

人工智能指数报告2024节选(二):技术性能

2024年人工智能指数报告技术性能部分关键发现如下:AI任务表现差异显著超越人类的任务:AI在图像分类、视觉推理和英语理解等基准测试中已超越人类表现。例如,在ImageNet等经典数据集上,AI模型的准确率显著高于人类平均水平。落后于人类的任务:在竞赛级数学、视觉常识推理和复杂规划等任务中,AI仍落后于人类。例如,AI在解决需要多步骤推理的数学竞赛题时,正确率远低于人类专家。多模态AI崛起传统模型局限:传统AI系统功能单一,语言模型擅长文本理解但图像处理能力弱,计算机视觉模型则反之。多模态突破:谷歌Gemini和OpenAI GPT-4等模型实现了跨模态处理能力,可同时处理图像、文本和音频数据。例如,GPT-4能根据文本描述生成图像,或通过图像生成相关文本。更难基准测试涌现性能饱和问题:AI模型在ImageNet、SQuAD等传统基准测试中已接近性能上限,促使研究人员开发更具挑战性的新基准。2023年新基准:包括编码基准SWE-bench、图像生成基准HEIM、一般推理基准MMMU、道德推理基准MoCa、代理行为基准AgentBench和幻觉检测基准HaluEval。数据驱动的AI改进专用数据生成:SegmentAnything和Skoltech等模型被用于生成图像分割和3D重建等任务的专用数据。数据增强循环:AI生成的数据可进一步提升模型性能,形成“更好AI→更好数据→更好AI”的良性循环,尤其在复杂任务中效果显著。人类评估成为新趋势生成模型挑战:随着生成模型输出质量提升,传统计算化排名基准(如ImageNet)逐渐被融合人类评估的体系取代。评估方式转型:例如Chatbot Arena排行榜通过人类投票评估模型表现,更贴近真实使用场景。机器人技术融合语言模型灵活性提升:PaLM-E和RT-2等模型将语言建模与机器人控制结合,使机器人能理解自然语言指令并执行复杂任务。交互能力突破:这些模型可主动提问以澄清指令,标志着机器人向更高效现实世界交互迈出关键一步。代理AI技术进展复杂任务掌握:自主AI代理系统已能掌握Minecraft等复杂游戏,并在在线购物、研究协助等真实场景中展现实用价值。环境适应能力:新兴研究表明,代理AI在动态环境中的决策和执行能力正在持续提升。封闭模型性能优势基准测试表现:在10个选定基准中,封闭模型的中位性能比开放模型高24.2%,尤其在数学推理和复杂任务处理上优势明显。政策影响:这一差异对AI政策辩论具有重要意义,可能影响开源与闭源模型的发展路径选择。


nginx