GenKnowSub: 通过通用知识减法提高 LLMs 的模块化和可重用性.pdfVIP

GenKnowSub: 通过通用知识减法提高 LLMs 的模块化和可重用性.pdf

GenKnowSub:通过通用知识减法提高LLMs的模块化和可重用性

MohammadtahaBagherifard2SaharRajabi1*AliEdalat1*

YadollahYaghoobzadeh1,2

1SchoolofElectricalandComputerEngineering,

CollegeofEngineering,UniversityofTehran,Tehran,Iran

2TehranInstituteforAdvancedStudies,KhatamUniversity,Tehran,Iran

taha.bagheri98@,

{sahar.rajabi,ali.edalat,y.yaghoobzadeh}@ut.ac.ir

Abstract临一个关键挑战：确保在无需大量重新训练的

情况下有效泛化至未见过的任务(Bommasani

大型语言模型通常在零样本泛化方面遇到

etal.,2022;Weietal.,2022)。

本困难，为此已经提出了几种模块化方法来在模块化零样本迁移方法(Pfeifferetal.,

译应对这一挑战。然而，我们认为一个关键2023)中，通常遵循一个两阶段过程：(i)通过

中的限制仍然存在：通用知识与任务特定适参数高效的微调（PEFT）方法，如LoRA(Hu

应之间的纠缠。为了克服这一点，我们提出

2了一种通过构建任务特定LoRA模块库和etal.,2021)、Adapters(Houlsbyetal.,2019)和

9通用领域LoRA来解耦这些组件的模块化(IA)(Liuetal.,2022)，在多任务数据集上获得

框架。通过对每个任务特定模块减去这个

9特定任务的模块；(ii)使用路由函数来选择并

0通用知识成分，我们获得了更加专注于任

1组合特定任务的模块以解决新任务。

.务相关信息的残差模块——我们将这种方

5虽然一些路由函数需要与特定任务的模块

0法称为通用知识减除（GenKnowSub）。利

5用优化的任务特定模块和Arrow路由算法一起进行联合训练(Fedusetal.,2022;Caccia

:(Ostapenkoetal.,2024)，我们动态选择并组etal.,2023;Pontietal.,2023)，但最近的方法采

i合模块以处理新输入而无需额外训练。我用了事后路由方法，这些方法不需要进一步的

r们在Phi-3模型和标准Arrow作为基线的研训练(Chronopoulouetal.,2023;Ostapenkoetal.,

究表明，使用从包括英语、法语和德语在2024)。混合方法也存在，在这种方法中，路由