内容实验在内容风险模型中的用户信号研究

LLM中模型置信度与人类置信度之间的校准差距

LLM中模型置信度与人类置信度之间的校准差距主要体现在人类对模型答案正确可能性的评估与模型内部评估的不一致上,这种差距可通过修改模型解释来缩小,增强用户对模型置信度的准确感知。核心概念模型置信度:模型能够准确地评估和传达自己预测正确的可能性。人类置信度:人类仅根据LLM生成的语言对LLM答案正确可能性的评估,不了解LLM的内部模型置信度。校准差距的表现示例:答案C的模型置信度为0.46,而人类置信度为0.95,显示出显著的校准差距。默认解释的影响:LLM的默认解释往往会导致用户高估模型的置信度和准确性。研究内容与方法研究内容:LLM回答的外部人类置信度与模型内部置信度之间的差异。实验方法:通过多项选择题提示LLM,获得模型对每个答案选择的内部置信度。选择最有可能的答案,再次提示模型为给定答案生成解释。通过向用户展示问题和LLM的解释,并要求用户指出模型正确的概率来获得人类置信度。实验结果与分析修改解释的影响:通过修改解释,可以更准确地反映LLM的内部置信度,观察到用户感知的显著变化,使用户感知与模型的实际置信度更加一致。实验结果显示,使用不确定性语言(如“我不确定”)的解释会显著降低人类置信度。例如,GPT-3.5和PaLM2在低置信度解释下的平均人类置信度分别降至0.52和0.48。校准能力和区分答案能力:校准误差(ECE):评估模型置信度和人类置信度之间的一致性,ECE值越低表示校准性能越好。区分度(AUC):评估置信度分数区分正确答案和错误答案的能力,AUC值越高表示区分性能越好。实验结果显示,LLM模型的置信度区分正确和错误答案的能力远高于随机(GPT-3.5 AUC=0.751,PaLM2 AUC=0.746),而参与者查看默认解释时的AUC值仅比随机猜测稍好(GPT-3.5 AUC=0.589,PaLM2 AUC=0.602)。结论与意义结论:根据LLM模型置信度选择解释类型可以提高校准和辨别性能,使人类对LLM的置信度与LLM的实际准确性更加密切相关。LLM提供的标准解释无法使参与者准确判断LLM答案正确性的可能性,导致感知准确性与实际准确性不一致。意义:研究结果强调了LLM中透明地沟通置信度的重要性,特别是在高风险应用中,了解人工智能生成信息的可靠性至关重要。通过调整解释方法,可以增强用户对模型置信度的信任度,提高评估LLM输出准确性的能力。


nginx