- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自适应重复以减轻LLM基础排序中的位置偏见
AliVardasbi,GustavoPenha,ClaudiaHauff,andHuguesBouchard
Spotify
{aliv,gustavop,claudiah,hb}@
摘要当使用大语言模型根据给定标准对项目进行排名或评估答案时,候
选项目的顺序可能会影响模型的最终决策。这种对提示中项目位置的敏感
性被称为位置偏置。先前的研究表明,即使在大型模型中也存在这种偏差,
本尽管其严重程度因模型和任务而异。除了位置偏见外,大语言模型还表现
出不同程度的低重复一致性,其中使用相同的候选顺序重复调用大语言模
译型可能会导致不同的排名结果。为了解决这两种不一致性,一种常见的方
中法是多次提示模型以不同顺序排列的候选项目,并通过多数表决来汇总结
1果。然而,这种重复策略会显著增加计算成本。
v扩展先前的研究成果,我们观察到方向——偏好提示中的早期或后期候选
8人——以及跨实例的位置偏差幅度变化显著,即使在单一数据集中也是如
8
7此。这一观察结果突显了需要一种每实例缓解策略。为此,我们引入了一
7种动态提前停止方法,该方法自适应地确定每个实例所需重复的次数。我
1
.们在三个不同规模的大语言模型上以及重新排名和对齐两项任务中评估了
7我们的方法,结果显示转向动态重复策略平均减少了%次大语言模型调
0
5用,同时保持准确性。此外,我们提出了一种基于置信度的方法来调整提
2前停止策略,与静态重复相比,平均减少%次大语言模型调用,并且相
:
v对于原始的提前停止方法仅在准确率上略有牺牲。
i
x
r
aKeywords:LLM-as-a-Judge岗位偏见·
1介绍
大语言模型越来越多地用于从一系列项目中选择胜者,涉及的任务包括
比较不同大语言模型对问题[17,15,6]的响应、基于文档与查询[12]的相关性
重新排序文档或回答多项选择题[14,21]。在这里,我们关注的是那种给定一
系列项目并要求大语言模型选出一个作为排名第一的项目的场景。相应地,
在本文中我们交替使用术语排名和判断。先前的研究表明,即使是非常强大
的模型,也会表现出位置偏差[15][20],这指的是当提示中的候选顺序改变
时,LLM的判断结果不一致。我们将这种情况称为缺乏置换一致性(PC)。
2A.Vardasbietal.
此外,重复一致性(RC)测量的是在相同排序下重复相同的提示时,LLM响
应的稳定性。较低的RC表明模型可能不确定或对微小变化敏感。综合来
看,高值的PC和RC可能是低方差判断的一个指标,因为它们反映了模型
决策的稳定性和一致性。
以往的研究[15,17,1]已经表明,通过不同的排列重复判断并选择多数结
您可能关注的文档
- SmartAPS:用于运营管理的工具增强型 LLM-计算机科学-机器学习-人工智能-运筹学-人机交互.pdf
- 一语定级万物-计算机科学-自动语音评估-计算机辅助语言学习.pdf
- 分层扩散框架用于伪健康脑 MRI 修复以增强三维一致性-计算机科学-机器学习-扩散模型-健康图像修复.pdf
- 大型云机器人操作的联邦学习:机遇与挑战-计算机科学-机器学习-云计算机器人.pdf
- 多模态循环集成用于预测对自然电影的脑反应-计算机科学-机器学习-算法.pdf
- VeriMinder:缓解 NL2SQL 中的分析漏洞-计算机科学-机器学习-大语言模型-自然语言处理.pdf
- I2I - STRADA – 通过结构化推理代理从信息到洞见的数据分析-计算机科学-多智能体-代理系统.pdf
- 基于安全强化学习的自动发电控制-计算机科学-安全强化学习-自适应通用控制.pdf
- 与物交谈:将大语言模型集成到物联网网络中-计算机科学-大语言模型-物联网-边缘计算.pdf
- ARCADE:一种混合 AI 环境下的 6G 网络 RAN 诊断方法论-计算机科学-人工智能-6G 网络.pdf
最近下载
- 公共体育课课程排舞选项教学大纲.pdf VIP
- 不发火施工方案.pdf VIP
- 初中英语新人教版八年级上册Unit 2 Home Sweet Home语法知识讲解和练习(2025秋).doc VIP
- 新教材高中物理 期末综合检测(A、B卷)(含解析)新人教版必修第一册.pdf VIP
- 2025新人教版八年级英语上册Unit 2 Home Sweet课文讲解学案.docx VIP
- 2024年新教材高中物理模块综合检测A含解析新人教版必修第一册.docx VIP
- 2024新化县中小学教师招聘考试题库及答案.docx VIP
- 2024_2025学年新教材高中物理期末把关检测卷含解析新人教版必修第一册.doc VIP
- 部编人教版九年级上册初中语文全册课时练(课后作业设计).docx VIP
- 《城镇道路工程施工与质量验收规范》CJJ1-2008.doc VIP
文档评论(0)