视觉大模型参数高效微调技术应用与展望.pdfVIP

视觉大模型参数高效微调技术应用与展望.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

专题:视觉感知

AI-VIEW

2024年第1期

视觉大模型参数高效微调技术

应用与展望

□/

文程乐超

(合肥工业大学计算机与信息学院,合肥230601)

摘要:视觉大模型(LargeVisionModel,LVM)通过在各种大型图像数据集上进行预训练,

在图像识别、图像分割等多种下游视觉任务上展现了强大的零样本泛化性能。随着算力的不

断提升,大模型的参数规模也在迅速增长,最近的参数规模甚至达到千亿级。随着参数规模

的增加,模型性能持续改进,表明模型获取了更多的知识。然而,从头开始训练这样一个庞

大的模型,对硬件资源和训练数据提出了巨大需求,几乎没有个人或公司能够负担如此高昂

的成本。参数高效微调(Parameter-EfficientFine-Tuning,PEFT)通过在已有的大型模型

基础上,仅微调较小数量的参数,适配特定的下游任务,而无需对所有参数进行调整。PEFT

方法极大地降低了计算成本,并且可以达到甚至超越全参数微调的性能,为解决大型视觉模

型适配特定任务时所面临的挑战提供了一种可行而高效的策略。

关键词:视觉大模型;参数化高效微调;垂直场景适配

中图分类号:TP18;TP391文献标志码:A文章编号:2096-5036(2024)01-0054-12

DOI:10.16453/j.2096-5036.202407

0引言法通常需要更新模型的所有参数,这带来巨

大的计算和存储成本。为了解决全参数微调

基础模型指的是在大规模数据上通过带来的高昂成本问题,PEFT[3]通过巧妙的算

自监督或半监督方式训练的模型。得益于庞法设计优化大模型的微调过程,减少可训练

大的数据集,这些模型能够学到丰富的先验参数的数量,使得大模型微调成为可能,并且

知识,在多个任务中展现出卓越性能。微调能够达到与全参数微调相当的性能。这为大

(Fine-Tuning)是指为了将这些预训练的型模型在更多垂直领域的应用奠定了基础,

基础模型应用于特定领域或下游任务,对其并为终端设备(手机、汽车、无人机等)的能

进行进一步训练以提高性能的过程。然而,在力带来突破。如何有效地将PEFT应用到各种

当前模型参数迅猛增长的时代,大型模型的大型视觉模型上,已经成为计算机视觉领域

参数已经发展到千亿级别[1,2]。传统的微调方的一个热门话题。

54

视觉大模型参数高效微调技术应用与展望

1背景介绍实际可行的解决方案。具体而言,PEFT在微

调过程中通过固定预训练参数、仅微调少量额

基于Tranformer[4]的大规模预训练模型外参数的方式实现了与传统全量微调相当甚至

逐渐在各种任务上取得突破,这些基础模型已更优的结果。在PEFT中,模型的预训练参数

经成为解决相关领域任务的核心工具。在自然被视为已经捕获了通用知识和规律。因此,在

语言处理领域,大语言模型(LargeLanguage微调阶段,这些参数保持不变,只有少量额外

Model,LLM)如BERT[5]、GPT[6]及其后续参数根据特定任务微调。这一策略大大降低了

版本在文本分类、情感分析、机器翻译和问答训练需求,使得模型能够在新任务上快速收敛。

系统等任务中取得了显著成就。在计算机视觉由于微调时使用的数据量远小于预训练时使用

领域,大型视觉模型同样展现出了强大的能力。的数据量,PEFT有效解决了传统全量微调可

例如,在Ima

文档评论(0)

教师资格证、公共营养师持证人

本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。

领域认证该用户于2024年07月07日上传了教师资格证、公共营养师

1亿VIP精品文档

相关文档