- 0
- 0
- 约7.12千字
- 约 5页
- 2026-03-06 发布于北京
- 举报
相关性如何出现:对LLM重排序中的LoRA微调的机
制分析
ATHARVANIJASURE,TANYACHOWDHURY,andJAMESALLAN,
CenterforIntelligentInformationRetrieval,ManningCollegeofInformationandComputerSciences,
UniversityofMassachusettsAmherst,USA
我们对用于段落重新排序的LoRA微调大型语言模型进行了行为探索,以了解相关性信号是如何被大型语言模
型学习和部署的。通过对Mistral-7B、LLaMA3.1-8B和Pythia-6.9B在MSMARCO数据集上进行多样化的LoRA
配置微调,我们研究了相关性建模如何随着检查点演变,LoRA秩(1,2,8,32)的影响,以及更新的MHA与
MLP组件之间的相对重要性。我们的消融研究表明,在LoRA变换中的哪些层和投影对重新排序准确性最为关
键。这些发现为解释LoRA的适应机制提供了新的视角,为进一步在信息检索领域的机理研究奠定了基础。本
本1
译研究中使用的所有模型均可在此找到。
中1背景
3动机:使用低秩适应(LoRA)对大型语言模型(LLMs)进行微调,已成为将预训练变换器适配
v到信息检索任务的一种流行方法。然而,这些经过微调的模型内部工作机制仍然很大程度上不
0
8透明,限制了我们理解相关性信号如何以及在何处被编码和使用的可能性。在这项研究中,我
7
8们试图揭开赋予LLMs排名能力的LoRA更新的工作原理。这项工作有助于实现我们的长期目
0.标,即揭示隐藏在LLMs的MLP层中的新潜在特征,并将它们整合到传统的统计排名模型中。
4重新排序任务:我们使用Tevatron存储库对LLM进行微调,以便在MSMARCO[6]上进行段2
0
5落重新排序,类似于现有工作[1,5]。给定一个查询-文档对,模型通过交叉熵损失学习预测相
2
:关性得分,并使用硬负例进行对比学习。我们使用TRECDL19和DL20基准上的nDCG@10来
v
i评估性能[2]。
x
rLoRA微调:LoRA[3]向现有层中注入一种轻量级的低秩近似,而不是更新所有模型参数,大
a
大减少了计算开销和存储需求。这种低秩模块在推理时与基础模型合并,在段落重排序等任务
上通常能达到与完全微调相当的效果[4,7]。
2实验
我们研究了相关性建模在LoRA微调中的演变,LoRA秩的影响,MHA和MLP更新的不同作
用,以及LoRA对最终预测的逐层贡献。所有这些结果都来自测试集(DL19)。
1https://huggingface.co/AtharvaNijasureUMass/
2/texttron/tevatron
Authors’ContactInformation:AtharvaNijasure;TanyaChowdhury;JamesAllan,{anijasure,tchowdhury,allan}@,
CenterforIntelligentInformationRetrieval,ManningCollegeofInformationandComputerSciences,UniversityofMassachusettsAmherst,
Amherst,MA,USA.
ManuscriptsubmittedtoACM1
2Nijasureetal.
在LoRA微调过程中出现的相关性:我们追踪了重新排序性能如何随着微调检查点的演变,如
表1所示。所有模型随着时间逐渐提高,到第50步时,LLaMA3
您可能关注的文档
- 破解提示:新的 p 值操纵?.pdf
- 只需说一句话: 无注释细粒度对象计数.pdf
- 用于从噪声光电容积脉搏波信号中稳健提取心率的自监督自动 编码器网络:将盲源分离应用于生物信号分析.pdf
- SSM-RDU:适用于长序列状态空间模型的可重构数据流单元.pdf
- AR-1-to-3: 单幅图像通过下一视角预测生成一致的 3D 物体.pdf
- SCReedSolo: 基于随机对称加密和里德-所 罗门编码的安全鲁棒 LSB 图像隐写框架.pdf
- 评估加速 MRI 中的结构不确定性:体素测量是否是有效的替代指标?.pdf
- 无地图障碍物避碰飞行通过在复杂环境中使用双重 KD 树的模型预测控制.pdf
- 规划编制以在规划时间推理目标实现.pdf
- 黑曼巴流:一种面向黑曼巴的端到端光流估计架构.pdf
原创力文档

文档评论(0)