GenKnowSub: 通过通用知识减法提高 LLMs 的模块化和可重用性.pdfVIP

  • 0
  • 0
  • 约3.97万字
  • 约 10页
  • 2026-03-09 发布于北京
  • 举报

GenKnowSub: 通过通用知识减法提高 LLMs 的模块化和可重用性.pdf

GenKnowSub:通过通用知识减法提高LLMs的模块化和可重用性

MohammadtahaBagherifard2SaharRajabi1*AliEdalat1*

YadollahYaghoobzadeh1,2

1SchoolofElectricalandComputerEngineering,

CollegeofEngineering,UniversityofTehran,Tehran,Iran

2TehranInstituteforAdvancedStudies,KhatamUniversity,Tehran,Iran

taha.bagheri98@,

{sahar.rajabi,ali.edalat,y.yaghoobzadeh}@ut.ac.ir

Abstract临一个关键挑战:确保在无需大量重新训练的

情况下有效泛化至未见过的任务(Bommasani

大型语言模型通常在零样本泛化方面遇到

etal.,2022;Weietal.,2022)。

本困难,为此已经提出了几种模块化方法来在模块化零样本迁移方法(Pfeifferetal.,

译应对这一挑战。然而,我们认为一个关键2023)中,通常遵循一个两阶段过程:(i)通过

中的限制仍然存在:通用知识与任务特定适参数高效的微调(PEFT)方法,如LoRA(Hu

应之间的纠缠。为了克服这一点,我们提出

2了一种通过构建任务特定LoRA模块库和etal.,2021)、Adapters(Houlsbyetal.,2019)和

v

9通用领域LoRA来解耦这些组件的模块化(IA)(Liuetal.,2022),在多任务数据集上获得

3

框架。通过对每个任务特定模块减去这个

9特定任务的模块;(ii)使用路由函数来选择并

0通用知识成分,我们获得了更加专注于任

1组合特定任务的模块以解决新任务。

.务相关信息的残差模块——我们将这种方

5虽然一些路由函数需要与特定任务的模块

0法称为通用知识减除(GenKnowSub)。利

5用优化的任务特定模块和Arrow路由算法一起进行联合训练(Fedusetal.,2022;Caccia

2

:(Ostapenkoetal.,2024),我们动态选择并组etal.,2023;Pontietal.,2023),但最近的方法采

v

i合模块以处理新输入而无需额外训练。我用了事后路由方法,这些方法不需要进一步的

x

r们在Phi-3模型和标准Arrow作为基线的研训练(Chronopoulouetal.,2023;Ostapenkoetal.,

a

究表明,使用从包括英语、法语和德语在2024)。混合方法也存在,在这种方法中,路由

内的多种语言

文档评论(0)

1亿VIP精品文档

相关文档