- 0
- 0
- 约3.97万字
- 约 10页
- 2026-03-09 发布于北京
- 举报
GenKnowSub:通过通用知识减法提高LLMs的模块化和可重用性
MohammadtahaBagherifard2SaharRajabi1*AliEdalat1*
YadollahYaghoobzadeh1,2
1SchoolofElectricalandComputerEngineering,
CollegeofEngineering,UniversityofTehran,Tehran,Iran
2TehranInstituteforAdvancedStudies,KhatamUniversity,Tehran,Iran
taha.bagheri98@,
{sahar.rajabi,ali.edalat,y.yaghoobzadeh}@ut.ac.ir
Abstract临一个关键挑战:确保在无需大量重新训练的
情况下有效泛化至未见过的任务(Bommasani
大型语言模型通常在零样本泛化方面遇到
etal.,2022;Weietal.,2022)。
本困难,为此已经提出了几种模块化方法来在模块化零样本迁移方法(Pfeifferetal.,
译应对这一挑战。然而,我们认为一个关键2023)中,通常遵循一个两阶段过程:(i)通过
中的限制仍然存在:通用知识与任务特定适参数高效的微调(PEFT)方法,如LoRA(Hu
应之间的纠缠。为了克服这一点,我们提出
2了一种通过构建任务特定LoRA模块库和etal.,2021)、Adapters(Houlsbyetal.,2019)和
v
9通用领域LoRA来解耦这些组件的模块化(IA)(Liuetal.,2022),在多任务数据集上获得
3
框架。通过对每个任务特定模块减去这个
9特定任务的模块;(ii)使用路由函数来选择并
0通用知识成分,我们获得了更加专注于任
1组合特定任务的模块以解决新任务。
.务相关信息的残差模块——我们将这种方
5虽然一些路由函数需要与特定任务的模块
0法称为通用知识减除(GenKnowSub)。利
5用优化的任务特定模块和Arrow路由算法一起进行联合训练(Fedusetal.,2022;Caccia
2
:(Ostapenkoetal.,2024),我们动态选择并组etal.,2023;Pontietal.,2023),但最近的方法采
v
i合模块以处理新输入而无需额外训练。我用了事后路由方法,这些方法不需要进一步的
x
r们在Phi-3模型和标准Arrow作为基线的研训练(Chronopoulouetal.,2023;Ostapenkoetal.,
a
究表明,使用从包括英语、法语和德语在2024)。混合方法也存在,在这种方法中,路由
内的多种语言
您可能关注的文档
最近下载
- 2026年鹤壁职业单招试题完美版.docx VIP
- 日成RCCN端子系列.pdf VIP
- 2026湖北十堰市教育局直属高中招聘教师100人笔试模拟试题及答案解析.docx VIP
- 2025年互联网营销师搜索引擎广告平台与账户搭建专题试卷及解析.pdf VIP
- 2026湖北十堰市教育局直属高中招聘教师100人笔试备考题库带答案解析.docx VIP
- 浙江农林大学2023-2024学年《数据结构》期末试卷(A卷)及参考答案.docx
- 2026年鹤壁职业技术学院单招职业技能考试题库附答案详解.docx VIP
- 肺血栓栓塞症课件PPT.pptx VIP
- 2026年鹤壁职业技术学院单招职业适应性考试模拟测试卷附答案.docx VIP
- 2026年鹤壁职业技术学院单招职业倾向性测试题库附答案.docx VIP
原创力文档

文档评论(0)