内容更新推动自然语言理解模块发展的算法演进

NLP领域“学霸”太多,一年前标准已过时,新跑分标准SuperGLUE出炉_百度...

NLP领域的新跑分标准SuperGLUE是为了应对GLUE的局限性而提出的，旨在通过更复杂的任务和更高的挑战推动自然语言理解（NLU）系统的创新与发展。GLUE的局限性GLUE（General Language Understanding Evaluation）作为NLP领域的测试基准，自去年4月推出以来，迅速成为评估模型性能的重要标准。然而，从今年1月至今，GLUE榜单的头名已被微软、谷歌、Facebook等公司刷新三次，新模型带来的性能提升显著，且均超过了人类在GLUE测试中的平均水平。这些模型的测试分数已达到GLUE的上限，分差不超过一分，表明GLUE为NLP研究者提供的进步空间已十分有限。SuperGLUE的提出为了应对GLUE的局限性，原本参与制定GLUE的三家公司和学校（DeepMind、纽约大学、华盛顿大学）联合Facebook提出了新的测试标准SuperGLUE。SuperGLUE旨在通过一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜，为NLP领域的研究提供新的方向和挑战。SuperGLUE的特点更复杂的任务：SuperGLUE总共包含10项任务，用于测试系统因果推理、识别因果关系、阅读短文后回答是非问题等方面的能力。这些问题用当前最先进的算法还不能很好地解决，却很容易被人类理解。引入新挑战：SuperGLUE首次引入了长篇问题回答数据集和基准测试，要求AI能提供长而复杂的答案，这是此前没有遇到过的挑战。例如，新的任务将更进一步要求系统对开放式问题的深入解答进行详细的阐述，需要系统能够回答“水母如何在没有大脑的情况下运作？”这样的问题。性别偏见检测：SuperGLUE还包含Winogender，一种性别偏见检测工具，有助于评估模型在处理性别相关问题时的公平性和准确性。SuperGLUE的基准测试SuperGLUE使用谷歌的BERT作为性能测试基准。在过去GLUE基准测试中，BERT模型与人类的分差不超过10%，而最新的RoBERTa模型在GLUE测试中略微超过人类。然而，在SuperGLUE测试中，RoBERTa与多项任务的人类基线之间仍然存在巨大差距，这说明了当前最先进的自然语言理解系统的一些局限性。以“选择合理的替代方案”（COPA）这一项因果推理任务为例，它要求系统能根据给出的句子，在两个选项中找出可能的原因或结果。人类可以在COPA上获得100％的准确率，而BERT只有74％，这表明了AI目前存在巨大的进步空间。SuperGLUE的目标与影响SuperGLUE的目标是通过引入半监督和自我监督学习的新方法，对更大规模的数据进行训练，促进NLP领域的创新。这一新标准将推动AI合成来自不同来源的信息，并提供开放式问题的复杂回复，有助于发现当今最先进的NLU系统的一些局限性，并推动其不断改进和发展。相关资源发布除了新的测试基准外，纽约大学还同时发布了相关的PyTorch语言理解工具包Jaint，为NLP领域的研究者提供了更多的工具和资源。

nginx