小型变换器架构用于任务切换.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

小型变换器架构用于任务切换

ClaudiusGros

InstituteforTheoreticalPhysics,GoetheUniversityFrankfurt,FrankfurtamMain,

Germany

摘要大规模生成人工智能的快速发展在很大程度上基于注意力机制。相

反地,构想出一种小型应用,在这种应用中基于注意力架构的表现优于传

统的多层感知器或递归网络,并非易事。我们在“任务切换”的背景下研究

本了这个问题。在这个框架下,模型处理正在进行的标记序列,当前的任务由

译随机穿插的控制标记确定。我们展示了标准变压器无法解决一个基本的任

务切换参考模型,该模型基于有限域算术并包含增量/加法/反向复制/上

中下文(IARC)子任务。我们展示了变压器、长短期记忆递归网络(LSTM)

1和平常的多层感知器(MLP)实现了相似但仅适度的预测准确性。我们将比

v较研究扩展到标准变压器架构的一种非平移不变版本,即cisformer,以及

1

6另一种注意力机制,广泛注意。后者的组合被发现是唯一能够达到约95%

4显著性能水平的模型。我们的结果表明,通过在任务切换设置中对比质性

4不同的表述方式,可以更好地理解和改进注意力的工作原理。

0

.

8

0Keywords:注意·变换器·任务切换

5

2

:

v1介绍

i

x

r变压器架构的一个无可争议的优势是,内存需求仅随层数深度扩展,而

a

不随上下文长度扩展(Vaswanietal.,2017)。与全连接多层感知器和递归网

络共有的一个特征是,计算量随上下文长度二次方增长。目前仍是一个开放

性问题,即变压器的成功是因为底层注意力机制的特定属性,还是由于由此

带来的改进尺寸缩放的结果。具有有利缩放特性的替代模型在这种情况下可

能同样优秀(GuandDao,2023)。这一问题因最近观察到当给定相同的计算

预算时,MLPs在上下文中的学习效果与变压器相当而变得更加紧迫(Tong

andPehlevan,2024)。因此,研究变压器在小规模应用中表现优异或失败的

程度很重要,即在一个尚未涉及缩放的领域。

这里我们在(Kaplanetal.,2020;NeumannandGros,2022)的缩放范

围以下工作,特别关注那些变换器和经典模型具有相似可调参数数量的设

2C.Gros

图1.IARC任务切换框架的评估,定义于第3节。展示了LSTM递归网络(黑色)、MLP

(绿色)以及两种cisformer版本(参见第4.2节)的结果,分别是标准注意力机制(蓝色)

和表达式注意力机制(红色)。经典transformer的等效结果列于表1中。左边:训练周

期数作为函数,预测准确率(性能)。正确:使用各种基本任务组合进行测试,包括(I),

增加当前输入,(A),将最后两个输入相加和(

您可能关注的文档

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档