首届大模型顶会COLM高分论文提出的PairS算法,通过将评估问题转换为偏好排序问题,有效解决了大模型评估中的分数偏见问题,提升了评估效率与人类判断一致性。大模型评估现存问题对提示设计高度敏感:LLM评估器的输出结果极易受提示(prompt)设计的影响,不同的提示方式可能导致评估结果出现显著差异,降低了评估的稳定性和可靠性。受多种偏见影响:位置偏见:在评估多个文本时,LLM评估器可能会对处于特定位置的文本给予不合理的偏好,例如更倾向于给排在前面的文本更高分数。冗长偏见:倾向于认为更长的文本质量更高,而忽略了文本的实际内容和质量,导致对简洁但高质量的文本评估偏低。上下文偏见:评估结果会受到文本上下文的影响,可能无法独立、客观地对文本本身的质量进行评估。校准技术效果有限:尽管之前的工作开发了校准技术以减少LLM预测中的偏见,但系统分析表明,即使提供监督数据,现有校准方法仍难以有效对齐LLM评估器,评估不对齐的主要原因在于评估标准的错位,而非评估分数分布的先验偏见。评估偏好排序复杂性和可扩展性被忽视:已有工作开始通过让LLM进行成对比较得到偏好排序,但忽略了传递性假设,使得比较次数的复杂度为O(N²),评估过程昂贵且不可行。RLHF带来的启发偏好数据对齐奖励模型:在RLHF训练范式中,奖励模型通过排名比较数据与人类偏好对齐,增强了LLMs与人类价值观的对齐,从而生成更好地帮助人类并遵守人类价值观的回应。成对偏好评估的潜力:受到RLHF的启发,认为LLM评估器通过生成偏好排序可以得到更与人类对齐的预测,因为做成对评估时,LLM评估器可能与人类有更一致的评价标准。PairS算法介绍算法背景:为解决上述问题,提出了两种成对偏好搜索算法(PairS-greedy和PairS-beam),将评估问题转换为偏好排序问题,利用不确定性和LLM传递性假设给出高效、准确的偏好排序。PairS-greedy算法:假设基础:基于完全的传递性假设和合并排序(merge sort),假设对于多个候选项,如果A≻B且B≻C,则A≻C。复杂度优势:只需要通过O(NlogN)的复杂度就可以得到全局的偏好排序,大大降低了评估过程的复杂度。PairS-beam算法:假设调整:考虑到LLM并不具有完美的传递性,在更宽松传递性假设下,推导并化简了偏好排序的似然函数(likelihood function)。搜索策略:在合并排序算法的每一次合并操作中按似然值做集束搜索,并通过偏好的不确定性(uncertainty)来减枝成对比较的空间的搜索方法,可以调整对比复杂度和排序质量,高效地给出偏好排序的最大似然估计(MLE)。实验结果与人类评分一致性高:在多个具有代表性的数据集上(包括闭合式生成的缩写任务NewsRoom和SummEval,和开放式的故事生成任务HANNA)进行测试,对比多个LLM单点评估的基线方法(包括无监督的direct scoring、G-Eval、GPTScore和有监督训练过的UniEval以及BARTScore),PairS在每个任务上都有着和人类评分更高的一致性,GPT-4-turbo更是能达到SOTA的效果。对比次数少:对比两种偏好排序的基线方法(win rate和ELO rating),PairS可以仅用约30%的对比次数就能达到同样质量的偏好排序,显著提高了评估效率。



































