自适应重复以减轻 LLM 基础排序中的位置偏见-计算机科学-人工智能-大语言模型.pdfVIP

自适应重复以减轻 LLM 基础排序中的位置偏见-计算机科学-人工智能-大语言模型.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自适应重复以减轻LLM基础排序中的位置偏见

AliVardasbi,GustavoPenha,ClaudiaHauff,andHuguesBouchard

Spotify

{aliv,gustavop,claudiah,hb}@

摘要当使用大语言模型根据给定标准对项目进行排名或评估答案时,候

选项目的顺序可能会影响模型的最终决策。这种对提示中项目位置的敏感

性被称为位置偏置。先前的研究表明,即使在大型模型中也存在这种偏差,

本尽管其严重程度因模型和任务而异。除了位置偏见外,大语言模型还表现

出不同程度的低重复一致性,其中使用相同的候选顺序重复调用大语言模

译型可能会导致不同的排名结果。为了解决这两种不一致性,一种常见的方

中法是多次提示模型以不同顺序排列的候选项目,并通过多数表决来汇总结

1果。然而,这种重复策略会显著增加计算成本。

v扩展先前的研究成果,我们观察到方向——偏好提示中的早期或后期候选

8人——以及跨实例的位置偏差幅度变化显著,即使在单一数据集中也是如

8

7此。这一观察结果突显了需要一种每实例缓解策略。为此,我们引入了一

7种动态提前停止方法,该方法自适应地确定每个实例所需重复的次数。我

1

.们在三个不同规模的大语言模型上以及重新排名和对齐两项任务中评估了

7我们的方法,结果显示转向动态重复策略平均减少了%次大语言模型调

0

5用,同时保持准确性。此外,我们提出了一种基于置信度的方法来调整提

2前停止策略,与静态重复相比,平均减少%次大语言模型调用,并且相

:

v对于原始的提前停止方法仅在准确率上略有牺牲。

i

x

r

aKeywords:LLM-as-a-Judge岗位偏见·

1介绍

大语言模型越来越多地用于从一系列项目中选择胜者,涉及的任务包括

比较不同大语言模型对问题[17,15,6]的响应、基于文档与查询[12]的相关性

重新排序文档或回答多项选择题[14,21]。在这里,我们关注的是那种给定一

系列项目并要求大语言模型选出一个作为排名第一的项目的场景。相应地,

在本文中我们交替使用术语排名和判断。先前的研究表明,即使是非常强大

的模型,也会表现出位置偏差[15][20],这指的是当提示中的候选顺序改变

时,LLM的判断结果不一致。我们将这种情况称为缺乏置换一致性(PC)。

2A.Vardasbietal.

此外,重复一致性(RC)测量的是在相同排序下重复相同的提示时,LLM响

应的稳定性。较低的RC表明模型可能不确定或对微小变化敏感。综合来

看,高值的PC和RC可能是低方差判断的一个指标,因为它们反映了模型

决策的稳定性和一致性。

以往的研究[15,17,1]已经表明,通过不同的排列重复判断并选择多数结

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档