相关性如何出现:对 LLM 重排序中的 LoRA 微调的机 制分析.pdfVIP

  • 0
  • 0
  • 约7.12千字
  • 约 5页
  • 2026-03-06 发布于北京
  • 举报

相关性如何出现:对 LLM 重排序中的 LoRA 微调的机 制分析.pdf

相关性如何出现:对LLM重排序中的LoRA微调的机

制分析

ATHARVANIJASURE,TANYACHOWDHURY,andJAMESALLAN,

CenterforIntelligentInformationRetrieval,ManningCollegeofInformationandComputerSciences,

UniversityofMassachusettsAmherst,USA

我们对用于段落重新排序的LoRA微调大型语言模型进行了行为探索,以了解相关性信号是如何被大型语言模

型学习和部署的。通过对Mistral-7B、LLaMA3.1-8B和Pythia-6.9B在MSMARCO数据集上进行多样化的LoRA

配置微调,我们研究了相关性建模如何随着检查点演变,LoRA秩(1,2,8,32)的影响,以及更新的MHA与

MLP组件之间的相对重要性。我们的消融研究表明,在LoRA变换中的哪些层和投影对重新排序准确性最为关

键。这些发现为解释LoRA的适应机制提供了新的视角,为进一步在信息检索领域的机理研究奠定了基础。本

本1

译研究中使用的所有模型均可在此找到。

中1背景

3动机:使用低秩适应(LoRA)对大型语言模型(LLMs)进行微调,已成为将预训练变换器适配

v到信息检索任务的一种流行方法。然而,这些经过微调的模型内部工作机制仍然很大程度上不

0

8透明,限制了我们理解相关性信号如何以及在何处被编码和使用的可能性。在这项研究中,我

7

8们试图揭开赋予LLMs排名能力的LoRA更新的工作原理。这项工作有助于实现我们的长期目

0.标,即揭示隐藏在LLMs的MLP层中的新潜在特征,并将它们整合到传统的统计排名模型中。

4重新排序任务:我们使用Tevatron存储库对LLM进行微调,以便在MSMARCO[6]上进行段2

0

5落重新排序,类似于现有工作[1,5]。给定一个查询-文档对,模型通过交叉熵损失学习预测相

2

:关性得分,并使用硬负例进行对比学习。我们使用TRECDL19和DL20基准上的nDCG@10来

v

i评估性能[2]。

x

rLoRA微调:LoRA[3]向现有层中注入一种轻量级的低秩近似,而不是更新所有模型参数,大

a

大减少了计算开销和存储需求。这种低秩模块在推理时与基础模型合并,在段落重排序等任务

上通常能达到与完全微调相当的效果[4,7]。

2实验

我们研究了相关性建模在LoRA微调中的演变,LoRA秩的影响,MHA和MLP更新的不同作

用,以及LoRA对最终预测的逐层贡献。所有这些结果都来自测试集(DL19)。

1https://huggingface.co/AtharvaNijasureUMass/

2/texttron/tevatron

Authors’ContactInformation:AtharvaNijasure;TanyaChowdhury;JamesAllan,{anijasure,tchowdhury,allan}@,

CenterforIntelligentInformationRetrieval,ManningCollegeofInformationandComputerSciences,UniversityofMassachusettsAmherst,

Amherst,MA,USA.

ManuscriptsubmittedtoACM1

2Nijasureetal.

在LoRA微调过程中出现的相关性:我们追踪了重新排序性能如何随着微调检查点的演变,如

表1所示。所有模型随着时间逐渐提高,到第50步时,LLaMA3

文档评论(0)

1亿VIP精品文档

相关文档