算法对抗与排名评估体系的模型

首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估...

首届大模型顶会COLM高分论文提出的PairS算法，通过将评估问题转换为偏好排序问题，有效解决了大模型评估中的分数偏见问题，提升了评估效率与人类判断一致性。大模型评估现存问题对提示设计高度敏感：LLM评估器的输出结果极易受提示（prompt）设计的影响，不同的提示方式可能导致评估结果出现显著差异，降低了评估的稳定性和可靠性。受多种偏见影响：位置偏见：在评估多个文本时，LLM评估器可能会对处于特定位置的文本给予不合理的偏好，例如更倾向于给排在前面的文本更高分数。冗长偏见：倾向于认为更长的文本质量更高，而忽略了文本的实际内容和质量，导致对简洁但高质量的文本评估偏低。上下文偏见：评估结果会受到文本上下文的影响，可能无法独立、客观地对文本本身的质量进行评估。校准技术效果有限：尽管之前的工作开发了校准技术以减少LLM预测中的偏见，但系统分析表明，即使提供监督数据，现有校准方法仍难以有效对齐LLM评估器，评估不对齐的主要原因在于评估标准的错位，而非评估分数分布的先验偏见。评估偏好排序复杂性和可扩展性被忽视：已有工作开始通过让LLM进行成对比较得到偏好排序，但忽略了传递性假设，使得比较次数的复杂度为O(N²)，评估过程昂贵且不可行。RLHF带来的启发偏好数据对齐奖励模型：在RLHF训练范式中，奖励模型通过排名比较数据与人类偏好对齐，增强了LLMs与人类价值观的对齐，从而生成更好地帮助人类并遵守人类价值观的回应。成对偏好评估的潜力：受到RLHF的启发，认为LLM评估器通过生成偏好排序可以得到更与人类对齐的预测，因为做成对评估时，LLM评估器可能与人类有更一致的评价标准。PairS算法介绍算法背景：为解决上述问题，提出了两种成对偏好搜索算法（PairS-greedy和PairS-beam），将评估问题转换为偏好排序问题，利用不确定性和LLM传递性假设给出高效、准确的偏好排序。PairS-greedy算法：假设基础：基于完全的传递性假设和合并排序（merge sort），假设对于多个候选项，如果A≻B且B≻C，则A≻C。复杂度优势：只需要通过O(NlogN)的复杂度就可以得到全局的偏好排序，大大降低了评估过程的复杂度。PairS-beam算法：假设调整：考虑到LLM并不具有完美的传递性，在更宽松传递性假设下，推导并化简了偏好排序的似然函数（likelihood function）。搜索策略：在合并排序算法的每一次合并操作中按似然值做集束搜索，并通过偏好的不确定性（uncertainty）来减枝成对比较的空间的搜索方法，可以调整对比复杂度和排序质量，高效地给出偏好排序的最大似然估计（MLE）。实验结果与人类评分一致性高：在多个具有代表性的数据集上（包括闭合式生成的缩写任务NewsRoom和SummEval，和开放式的故事生成任务HANNA）进行测试，对比多个LLM单点评估的基线方法（包括无监督的direct scoring、G-Eval、GPTScore和有监督训练过的UniEval以及BARTScore），PairS在每个任务上都有着和人类评分更高的一致性，GPT-4-turbo更是能达到SOTA的效果。对比次数少：对比两种偏好排序的基线方法（win rate和ELO rating），PairS可以仅用约30%的对比次数就能达到同样质量的偏好排序，显著提高了评估效率。

nginx