相关性如何出现：对 LLM 重排序中的 LoRA 微调的机制分析.pdfVIP

下载本文档

0
0
约7.12千字
约 5页
2026-03-06 发布于北京
举报

相关性如何出现：对 LLM 重排序中的 LoRA 微调的机制分析.pdf

相关性如何出现：对LLM重排序中的LoRA微调的机

制分析

ATHARVANIJASURE,TANYACHOWDHURY,andJAMESALLAN,

CenterforIntelligentInformationRetrieval,ManningCollegeofInformationandComputerSciences,

UniversityofMassachusettsAmherst,USA

我们对用于段落重新排序的LoRA微调大型语言模型进行了行为探索，以了解相关性信号是如何被大型语言模

型学习和部署的。通过对Mistral-7B、LLaMA3.1-8B和Pythia-6.9B在MSMARCO数据集上进行多样化的LoRA

配置微调，我们研究了相关性建模如何随着检查点演变，LoRA秩（1,2,8,32）的影响，以及更新的MHA与

MLP组件之间的相对重要性。我们的消融研究表明，在LoRA变换中的哪些层和投影对重新排序准确性最为关

键。这些发现为解释LoRA的适应机制提供了新的视角，为进一步在信息检索领域的机理研究奠定了基础。本

本1

译研究中使用的所有模型均可在此找到。

中1背景

3动机:使用低秩适应（LoRA）对大型语言模型（LLMs）进行微调，已成为将预训练变换器适配

v到信息检索任务的一种流行方法。然而，这些经过微调的模型内部工作机制仍然很大程度上不

8透明，限制了我们理解相关性信号如何以及在何处被编码和使用的可能性。在这项研究中，我

8们试图揭开赋予LLMs排名能力的LoRA更新的工作原理。这项工作有助于实现我们的长期目

0.标，即揭示隐藏在LLMs的MLP层中的新潜在特征，并将它们整合到传统的统计排名模型中。

4重新排序任务:我们使用Tevatron存储库对LLM进行微调，以便在MSMARCO[6]上进行段2

5落重新排序，类似于现有工作[1,5]。给定一个查询-文档对，模型通过交叉熵损失学习预测相

:关性得分，并使用硬负例进行对比学习。我们使用TRECDL19和DL20基准上的nDCG@10来

i评估性能[2]。

rLoRA微调:LoRA[3]向现有层中注入一种轻量级的低秩近似，而不是更新所有模型参数，大

大减少了计算开销和存储需求。这种低秩模块在推理时与基础模型合并，在段落重排序等任务

上通常能达到与完全微调相当的效果[4,7]。

2实验

我们研究了相关性建模在LoRA微调中的演变，LoRA秩的影响，MHA和MLP更新的不同作

用，以及LoRA对最终预测的逐层贡献。所有这些结果都来自测试集（DL19）。

1https://huggingface.co/AtharvaNijasureUMass/

2/texttron/tevatron

Authors’ContactInformation:AtharvaNijasure;TanyaChowdhury;JamesAllan,{anijasure,tchowdhury,allan}@,

CenterforIntelligentInformationRetrieval,ManningCollegeofInformationandComputerSciences,UniversityofMassachusettsAmherst,

Amherst,MA,USA.

ManuscriptsubmittedtoACM1

2Nijasureetal.

在LoRA微调过程中出现的相关性:我们追踪了重新排序性能如何随着微调检查点的演变，如

相关性如何出现：对 LLM 重排序中的 LoRA 微调的机制分析.pdfVIP