网站大量收购独家精品文档,联系QQ:2885784924

2023-计算机行业AI前沿系列(一):混合专家模型技术(MoE).pptx

2023-计算机行业AI前沿系列(一):混合专家模型技术(MoE).pptx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2023计算机行业AI前沿系列(一):混合专家模型技术(MoE);

目录

一、混合专家模型(MoE)介绍

二、MoE技术在不同领域中的应用

三、MoE最新研究进程及未来展望;

MoE(2017):

在两个LSTM层之间插入一个MoE层,

在机器翻译中实现SOTA;

数据集

投票方式

求均值方式

……;

?基本概念:混合专家模型(MoE)是一种稀疏门控制的深度学习模型,主要由一组专家模型和一个门控模型组成。MoE的基本理念是将输入分割成多个区域,并对每个区域分配一个或多个专家模型。每个专家模型可以专注于处理输入的一部分,从而提高模型的整体性能。

?门控模型:稀疏门网络是混合专家模型的一部分,它接收单个数据元素作为输入,然后输出一个权重,这些权重表示每个专家模型对处理输入数据的贡献。例如,如果模型有两个专家,输出的概率可能为0.7和0.3,这意味着第一个专家对处理此数据的贡献为70%,第二个专家为30%。

?专家模型:在训练的过程中,输入的数据被门控模型分配到不同的专家中进行处理,如右图所示,不同的专家被分配到处理不同种类的输入数据;在推理的过程中,被门控选择的专家会针对输入的数据,产生相应的输出。这些输出(可以是标签或者数值)最后会和每个专家模型处理该特征的能力分配的权重进行加权组合,形成最终的预测结果。

?混合专家模型在训练过程中通过门控模型实现“因材施教”,进而在推理过程中实现专家模型之间的“博采众长”。图:MoE结构示意图图:不同的专家处理不同的输入(LIMoE);

?混合专家模型(MoE)的稀疏性:在传统的密集模型中,对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中,处理输入数据时只有少数专家模型被激活或者使用,而大部分专家模型处于未被激活状态,这种状态便是“稀疏”。稀疏性是混合专家模型的重要优点,也是提升模型训练和推理过程的效率的关键。

?对于稀疏性的控制,主要通过调整门控网络的设计和参数来实现。在参数选择上,如果门???网络单次选择的专家模型数量较多,则模型的稀疏性就会降低。单次选择专家的数量越多,模型的表现能力可能有所提升,因为更多的专家模型处理输入数据,所以导致稀疏性有所下降,增加计算的复杂性和耗时,。因此,MoE模型的稀疏性在效率和表现能力之间存在权衡。根据不同的应用需求和资源限制,需要适当调整门控网络的设计和参数,来找到最佳的效率和表现能力之间的平衡。

图:密集模型和稀疏混合专家模型的对比 ;

?门控模型是混合专家模型的重要组成部分,是模型稀疏性和性能提升的技术基础。这里简单介绍两种激活不同专家数的门控策略:

?Top-k策略:通过根据门控网络的输出将token输入到最适合的K个专家模型中,根据门控的稀疏性可以节约MoE的计算成本。在谷歌的SwitchTransformer中提出了只选择最好的专家模型使用(即K=1),在谷歌的GLaM模型中则选择了最好的两个专家模型进行使用(即K=2)。

?按需门控策略:对于多层的混合专家模型,每一层的专家选择根据数据的特性进行动态选择,并通过联合优化的方式,实现不同层级间的最佳专家配置。如下图所示,对于从左往右的三层混合专家模型而言,其中分别激活了2、1、3个专家来进行计算。

图:按需门控策略示意图 ;

?不同的任务或训练数据究竟被分配到哪个专家模型,这里介绍三种不同的策略:依据Tokens、Tasks及专家选择路径策略。

?Tokens和tasks策略:基于tokens的MoE将不同的token分配到不同的专家子模型中,相似的token会被分配到同一个专家模型中,如左图(b)所示,“你”和“you”被分配到同一个专家;而基于任务的MoE则基于任务对token进行分配,相同任务的token会被分配到同一个模型中,如左图(a)所示,中文任务被分配到第一个expert,英文任务被分配到第二个expert。

?专家选择路径策略:与传统的MoE网络中基于tokens的路径选择方法不同,专家选择方法是让每个专家选择最相关的tokens。在这一算法下,每个专家都可以得到较为充分的训练,更平衡的训练负载也会带来训练速度的提升,但也存在着部分训练语料未能被充分的学习的风险。

图:Tokens和tasks策略

您可能关注的文档

文档评论(0)

8d758 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档