2023-计算机行业AI前沿系列(一)：混合专家模型技术(MoE).pptx

下载文档

2
0
约6.76千字
约 21页
2024-05-26 发布于江苏
举报
版权申诉
保障服务

2023-计算机行业AI前沿系列(一)：混合专家模型技术(MoE).pptx

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2023计算机行业AI前沿系列（一）：混合专家模型技术（MoE）;

一、混合专家模型（MoE）介绍

二、MoE技术在不同领域中的应用

三、MoE最新研究进程及未来展望;

MoE（2017）：

在两个LSTM层之间插入一个MoE层，

在机器翻译中实现SOTA;

数据集

投票方式

求均值方式

……;

?基本概念：混合专家模型(MoE)是一种稀疏门控制的深度学习模型，主要由一组专家模型和一个门控模型组成。MoE的基本理念是将输入分割成多个区域，并对每个区域分配一个或多个专家模型。每个专家模型可以专注于处理输入的一部分，从而提高模型的整体性能。

?门控模型：稀疏门网络是混合专家模型的一部分，它接收单个数据元素作为输入，然后输出一个权重，这些权重表示每个专家模型对处理输入数据的贡献。例如，如果模型有两个专家，输出的概率可能为0.7和0.3，这意味着第一个专家对处理此数据的贡献为70%，第二个专家为30%。

?专家模型：在训练的过程中，输入的数据被门控模型分配到不同的专家中进行处理，如右图所示，不同的专家被分配到处理不同种类的输入数据；在推理的过程中，被门控选择的专家会针对输入的数据，产生相应的输出。这些输出（可以是标签或者数值）最后会和每个专家模型处理该特征的能力分配的权重进行加权组合，形成最终的预测结果。

?混合专家模型在训练过程中通过门控模型实现“因材施教”，进而在推理过程中实现专家模型之间的“博采众长”。图：MoE结构示意图图：不同的专家处理不同的输入（LIMoE）;

?混合专家模型（MoE）的稀疏性：在传统的密集模型中，对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中，处理输入数据时只有少数专家模型被激活或者使用，而大部分专家模型处于未被激活状态，这种状态便是“稀疏”。稀疏性是混合专家模型的重要优点，也是提升模型训练和推理过程的效率的关键。

?对于稀疏性的控制，主要通过调整门控网络的设计和参数来实现。在参数选择上，如果门???网络单次选择的专家模型数量较多，则模型的稀疏性就会降低。单次选择专家的数量越多，模型的表现能力可能有所提升，因为更多的专家模型处理输入数据，所以导致稀疏性有所下降，增加计算的复杂性和耗时，。因此，MoE模型的稀疏性在效率和表现能力之间存在权衡。根据不同的应用需求和资源限制，需要适当调整门控网络的设计和参数，来找到最佳的效率和表现能力之间的平衡。

图：密集模型和稀疏混合专家模型的对比 ;

?门控模型是混合专家模型的重要组成部分，是模型稀疏性和性能提升的技术基础。这里简单介绍两种激活不同专家数的门控策略：

?Top-k策略：通过根据门控网络的输出将token输入到最适合的K个专家模型中，根据门控的稀疏性可以节约MoE的计算成本。在谷歌的SwitchTransformer中提出了只选择最好的专家模型使用（即K=1），在谷歌的GLaM模型中则选择了最好的两个专家模型进行使用（即K=2）。

?按需门控策略：对于多层的混合专家模型，每一层的专家选择根据数据的特性进行动态选择，并通过联合优化的方式，实现不同层级间的最佳专家配置。如下图所示，对于从左往右的三层混合专家模型而言，其中分别激活了2、1、3个专家来进行计算。

图：按需门控策略示意图 ;

?不同的任务或训练数据究竟被分配到哪个专家模型，这里介绍三种不同的策略：依据Tokens、Tasks及专家选择路径策略。

?Tokens和tasks策略：基于tokens的MoE将不同的token分配到不同的专家子模型中，相似的token会被分配到同一个专家模型中，如左图（b）所示，“你”和“you”被分配到同一个专家；而基于任务的MoE则基于任务对token进行分配，相同任务的token会被分配到同一个模型中，如左图（a）所示，中文任务被分配到第一个expert，英文任务被分配到第二个expert。

?专家选择路径策略：与传统的MoE网络中基于tokens的路径选择方法不同，专家选择方法是让每个专家选择最相关的tokens。在这一算法下，每个专家都可以得到较为充分的训练，更平衡的训练负载也会带来训练速度的提升，但也存在着部分训练语料未能被充分的学习的风险。

图：Tokens和tasks策略

2023-计算机行业AI前沿系列(一)：混合专家模型技术(MoE).pptx 原文免费试下载