小型变换器架构用于任务切换.pdfVIP

下载本文档

0
0
约1.58万字
约 11页
2025-10-13 发布于北京
举报
版权申诉

小型变换器架构用于任务切换.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

小型变换器架构用于任务切换

ClaudiusGros

InstituteforTheoreticalPhysics,GoetheUniversityFrankfurt,FrankfurtamMain,

Germany

摘要大规模生成人工智能的快速发展在很大程度上基于注意力机制。相

反地，构想出一种小型应用，在这种应用中基于注意力架构的表现优于传

统的多层感知器或递归网络，并非易事。我们在“任务切换”的背景下研究

本了这个问题。在这个框架下，模型处理正在进行的标记序列，当前的任务由

译随机穿插的控制标记确定。我们展示了标准变压器无法解决一个基本的任

务切换参考模型，该模型基于有限域算术并包含增量/加法/反向复制/上

中下文（IARC）子任务。我们展示了变压器、长短期记忆递归网络（LSTM）

1和平常的多层感知器（MLP）实现了相似但仅适度的预测准确性。我们将比

v较研究扩展到标准变压器架构的一种非平移不变版本，即cisformer，以及

6另一种注意力机制，广泛注意。后者的组合被发现是唯一能够达到约95%

4显著性能水平的模型。我们的结果表明，通过在任务切换设置中对比质性

4不同的表述方式，可以更好地理解和改进注意力的工作原理。

0Keywords:注意·变换器·任务切换

v1介绍

r变压器架构的一个无可争议的优势是，内存需求仅随层数深度扩展，而

不随上下文长度扩展(Vaswanietal.,2017)。与全连接多层感知器和递归网

络共有的一个特征是，计算量随上下文长度二次方增长。目前仍是一个开放

性问题，即变压器的成功是因为底层注意力机制的特定属性，还是由于由此

带来的改进尺寸缩放的结果。具有有利缩放特性的替代模型在这种情况下可

能同样优秀(GuandDao,2023)。这一问题因最近观察到当给定相同的计算

预算时，MLPs在上下文中的学习效果与变压器相当而变得更加紧迫(Tong

andPehlevan,2024)。因此，研究变压器在小规模应用中表现优异或失败的

程度很重要，即在一个尚未涉及缩放的领域。

这里我们在(Kaplanetal.,2020;NeumannandGros,2022)的缩放范

围以下工作，特别关注那些变换器和经典模型具有相似可调参数数量的设

2C.Gros

图1.IARC任务切换框架的评估，定义于第3节。展示了LSTM递归网络（黑色）、MLP

（绿色）以及两种cisformer版本（参见第4.2节）的结果，分别是标准注意力机制（蓝色）

和表达式注意力机制（红色）。经典transformer的等效结果列于表1中。左边：训练周

期数作为函数，预测准确率（性能）。正确：使用各种基本任务组合进行测试，包括(I)，

增加当前输入，(A)，将最后两个输入相加和(

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

小型变换器架构用于任务切换.pdfVIP