全路由：在稀疏专家混合模型中共享路由决策用于语音识别-计算机科学-语音识别-专家混合.pdf

下载文档

0
0
约2.96万字
约 9页
2025-07-26 发布于中国
举报
版权申诉
保障服务

全路由：在稀疏专家混合模型中共享路由决策用于语音识别-计算机科学-语音识别-专家混合.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

全路由：在稀疏专家混合模型中共享路由决

策用于语音识别

ZijinGuTatianaLikhomanenkoNavdeepJaitly

AppleInc.AppleInc.AppleInc.

zijin@antares@njaitly@

摘要—专家混合（MoE）架构已从语言建模扩展到自动语专家混合（MoE）模型[16]因其能够扩展模型容

音识别（ASR）。传统的MoE方法，如SwitchTransformer，量（在参数数量方面）而不成比例地增加推理开销，而

在每一层内独立路由专家。我们的分析表明，大多数层中的路成为一种有前景的架构。与传统的密集模型不同，后者

由器做出的专家选择与其它层中路由器的选择没有很强的相关

本为每个输入激活所有参数，MoE模型会动态地将输入

性。为了增加不同层之间专家的合作并鼓励更大的专业化，我

译们在不同的MoE层使用一个共享的路由器。我们称这个模型数据路由到一组专门处理特定数据特征的专家子集中。

中为全路由变压器。在大规模伪标记数据集上的广泛实验和10这种路由机制使MoE模型能够在不按比例增加推理成

1个多样化的域外ASR基准测试中的评估表明，Omni-router本的情况下扩展到更大的参数数量，提供了效率和灵活

vTransformer能够实现更低的训练损失，并且始终优于密集性。ASR涉及高度多样化的语音信号，包括发音、口

2和SwitchTransformer模型，分别将平均词错误率降低了音以及噪声模式方面的差异。MoE设计上非常适合建

711.2%和8.2%，同时提供了结构化的专家使用并提高了对多样

5模这种多样性。通过将特定的专家分配给输入的不同方

0.化数据的鲁棒性。面，MoE模型可以更好地捕捉这些变化性，潜在地提

7IndexTerms—语音识别，专家混合（MoE），全路由变

0压器高识别性能和鲁棒性。此外，它们能够自适应地分配资

5源，使它们适合部署在异构环境中，从资源受限的边缘

:设备到容量充足的基于云的系统。最近，[17]表明，在

vI.介绍

i固定活跃参数数量的情况下增加专家的数量会一致提

r升记忆性能，而推理能力趋于饱和；[18]展示了每样本

a自动语音识别（ASR）系统近年来取得了显著进

计算量与总参数数量之间的相互作用及其对MoE模型

展，这得益于神经网络架构的进步和大规模数据集的可

的影响：存在一个最优稀疏度水平可以同时提高训练效

用性[1]–[4]。尽管有了这些进步，在多样化的声学和语

率和模型性能。

言条件下实现高识别准确性仍然是一个具有挑战性的

问题，特别是在说话人口音、背景噪声和领域特定词汇MoE架构的有效性在很大程度上依赖于将输入导

的变化情况下。向适当专家的路由机制。传统的MoE方法同时使用随

有几种方法可以提高ASR性能。结合声学模型与机梯度下降（SGD）来

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

全路由：在稀疏专家混合模型中共享路由决策用于语音识别-计算机科学-语音识别-专家混合.pdf