投影压缩-可训练投影用于高效的Transformer压缩-计算机科学-人工智能-大语言模型.pdf

投影压缩-可训练投影用于高效的Transformer压缩-计算机科学-人工智能-大语言模型.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大型语言模型的规模稳步增加以实现更好的性能;然而,这种增长也导致了推理时间和计算需求的增加。因此,人们对减小模型尺寸的方法产生了日益浓厚的兴趣。为了解决这一问题,我们提出了投影压缩,这是一种新颖的模型压缩技术,通过利用投影模块来减少模型权重。具体来说,我们首先训练额外的可训练投影权重并保留对所有原始模型参数的访问权限。随后,这些投影被合并到一个低维产品矩阵中,从而得到一个尺寸减小的标准基于Transformer的模型。与需要额外计算开销的其他方法不同,我们的方法在FLOPs上匹配了基础模型

投影压缩:可训练投影用于高效的变压器压缩

MaciejStefaniakMichaKrutulJanMaanicki

MaciejPióroJakubKrajewskiSebastianJaszczur

MarekCyganKamilAdamczewskiJanLudziejewski

UniversityofWarsawIDEASNCBRPolishAcademyofSciences

NomagicWroclawUniversityofScienceandTechnology

m.stefaniak8@uw.edu.pl

本Abstract

译大型语言模型的规模稳步增加以实现更好的性能;然而,这种增长也导致

中了推理时间和计算需求的增加。因此,人们对减小模型尺寸的方法产生了日

益浓厚的兴趣。为了解决这一问题,我们提出了投影压缩,这是一种新颖的

1

v模型压缩技术,通过利用投影模块来减少模型权重。具体来说,我们首先训

5练额外的可训练投影权重并保留对所有原始模型参数的访问权限。随后,这

5

2些投影被合并到一个低维产品矩阵中,从而得到一个尺寸减小的标准基于

2Transformer的模型。与需要额外计算开销的其他方法不同,我们的方法在

2

.FLOPs上匹配了基础模型的每个令牌的计算步骤。实验结果显示,在更高质

6量的模型上,投影压缩优于可比的硬剪枝和重新训练的方法。此外,性能差

0

5距随着令牌数量的增长而扩展得很好。

2

:

v

i1介绍

x

r

a

作为大型语言模型(LLMs),在自然语言处理(NLP)任务[1,2,3]方面表现出色,并且随

着其规模的不断扩大,它们在计算和内存方面的需求给部署、实验和微调[4,5]带来了日益

增长的挑战。因此,在保持质量的同时减少模型的大小和运营成本对于使LLMs更广泛地被

研究社区和公众所获取至关重要。模型压缩技术作为解决这一问题的流行方案已经出现,其

中剪枝仍然是最广泛采用的方法之一,因其简单性和有效性。然而,标准硬剪枝方法存在一

个固有限制:一旦参数被移除,其表示能力就会永久丧失,通常会导致性能下降。因此,硬

剪枝后的模型通常需要额外的再训练。在压缩效率方面领先的是软和动态剪枝方法,这些方

法在同一步骤中结合了训练和压缩。

受这些进展的启发,我们提出了投影压缩(PC),这是一种新颖的低秩压缩方法,通过梯度

优化的投影模块保留对所有原始模型参数的访问。PC并没有移除不重要的权重,而是通过

一个可学习的投影模块重新引导它们的影响,这些模块是根据基础矩阵权重的重要性进行初

始化的。这使得模型能够在训练过程中逐渐重新合并有用的维度。该方法在训练期间保留冻

结的基础权重,并允许通过将信息投影到压缩模型较低的最终维数来实现压缩——混合它们

Coreexecution.

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档