- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2023计算机行业AI前沿系列(一):混合专家模型技术(MoE);
目录
一、混合专家模型(MoE)介绍
二、MoE技术在不同领域中的应用
三、MoE最新研究进程及未来展望;
MoE(2017):
在两个LSTM层之间插入一个MoE层,
在机器翻译中实现SOTA;
数据集
投票方式
求均值方式
……;
?基本概念:混合专家模型(MoE)是一种稀疏门控制的深度学习模型,主要由一组专家模型和一个门控模型组成。MoE的基本理念是将输入分割成多个区域,并对每个区域分配一个或多个专家模型。每个专家模型可以专注于处理输入的一部分,从而提高模型的整体性能。
?门控模型:稀疏门网络是混合专家模型的一部分,它接收单个数据元素作为输入,然后输出一个权重,这些权重表示每个专家模型对处理输入数据的贡献。例如,如果模型有两个专家,输出的概率可能为0.7和0.3,这意味着第一个专家对处理此数据的贡献为70%,第二个专家为30%。
?专家模型:在训练的过程中,输入的数据被门控模型分配到不同的专家中进行处理,如右图所示,不同的专家被分配到处理不同种类的输入数据;在推理的过程中,被门控选择的专家会针对输入的数据,产生相应的输出。这些输出(可以是标签或者数值)最后会和每个专家模型处理该特征的能力分配的权重进行加权组合,形成最终的预测结果。
?混合专家模型在训练过程中通过门控模型实现“因材施教”,进而在推理过程中实现专家模型之间的“博采众长”。图:MoE结构示意图图:不同的专家处理不同的输入(LIMoE);
?混合专家模型(MoE)的稀疏性:在传统的密集模型中,对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中,处理输入数据时只有少数专家模型被激活或者使用,而大部分专家模型处于未被激活状态,这种状态便是“稀疏”。稀疏性是混合专家模型的重要优点,也是提升模型训练和推理过程的效率的关键。
?对于稀疏性的控制,主要通过调整门控网络的设计和参数来实现。在参数选择上,如果门???网络单次选择的专家模型数量较多,则模型的稀疏性就会降低。单次选择专家的数量越多,模型的表现能力可能有所提升,因为更多的专家模型处理输入数据,所以导致稀疏性有所下降,增加计算的复杂性和耗时,。因此,MoE模型的稀疏性在效率和表现能力之间存在权衡。根据不同的应用需求和资源限制,需要适当调整门控网络的设计和参数,来找到最佳的效率和表现能力之间的平衡。
图:密集模型和稀疏混合专家模型的对比 ;
?门控模型是混合专家模型的重要组成部分,是模型稀疏性和性能提升的技术基础。这里简单介绍两种激活不同专家数的门控策略:
?Top-k策略:通过根据门控网络的输出将token输入到最适合的K个专家模型中,根据门控的稀疏性可以节约MoE的计算成本。在谷歌的SwitchTransformer中提出了只选择最好的专家模型使用(即K=1),在谷歌的GLaM模型中则选择了最好的两个专家模型进行使用(即K=2)。
?按需门控策略:对于多层的混合专家模型,每一层的专家选择根据数据的特性进行动态选择,并通过联合优化的方式,实现不同层级间的最佳专家配置。如下图所示,对于从左往右的三层混合专家模型而言,其中分别激活了2、1、3个专家来进行计算。
图:按需门控策略示意图 ;
?不同的任务或训练数据究竟被分配到哪个专家模型,这里介绍三种不同的策略:依据Tokens、Tasks及专家选择路径策略。
?Tokens和tasks策略:基于tokens的MoE将不同的token分配到不同的专家子模型中,相似的token会被分配到同一个专家模型中,如左图(b)所示,“你”和“you”被分配到同一个专家;而基于任务的MoE则基于任务对token进行分配,相同任务的token会被分配到同一个模型中,如左图(a)所示,中文任务被分配到第一个expert,英文任务被分配到第二个expert。
?专家选择路径策略:与传统的MoE网络中基于tokens的路径选择方法不同,专家选择方法是让每个专家选择最相关的tokens。在这一算法下,每个专家都可以得到较为充分的训练,更平衡的训练负载也会带来训练速度的提升,但也存在着部分训练语料未能被充分的学习的风险。
图:Tokens和tasks策略
您可能关注的文档
- (2023春)教科版科学六年级下册《-夏季星空》PPT课件.pptx
- “职”引未来,点亮青春梦想的就业灯塔.pptx
- 《采薇》课件-(共58张PPT).pptx
- 《俄罗斯》地理PPT课件(7篇).pptx
- 《公输》获奖课件(1).pptx
- 《客舱服务》-项目五-机上餐饮娱乐服务.pptx
- 《女性中医养生保健》课件.pptx
- 《庖丁解牛》ppt课件.pptx
- 《小数的意义》说课课件.pptx
- 【标杆学习】华为人力资源管理体系精髓及启示 (1).pptx
- 2025年市国资委党委开展深入贯彻中央八项规定精神学习教育工作方案与开展学习中央八项规定主题教育工作方案(2篇文).docx
- 在2025年市商务局党组研究部署深入贯彻中央八项规定精神学习教育专题会上的讲话稿、教育动员部署会议上的讲话提纲【2篇文】.docx
- 开展2025年学习八项规定主题教育工作方案与领导在局机关深入贯彻八项规定精神学习教育部署会上的讲话稿(两篇文).docx
- 2025年深入贯彻中央八项规定精神学习教育实施方案与全面落实中央八项规定精神情况总结(2篇文).docx
- 2025年落实中央八项规定精神情况总结稿与领导在深入贯彻中央八项规定精神学习教育工作会议的主持讲话稿(2篇文).docx
- 2025年组织部长在八项规定学习教育工作专班座谈会的讲话稿与开展学习中央八项规定主题教育工作方案(两篇文).docx
- 学习2025年深入贯彻中央八项规定精神知识测试题135题【附答案】与全面深入贯彻中央八项规定精神学习教育实施方案.docx
- 2025年县委书记在中央八项规定精神学习教育动员会上的讲话稿遵守党的政治纪律和落实中央八项规定精神情况个人对照检查材料(2篇文).docx
- 2025年在深入贯彻中央八项规定精神学习教育动员部署会上的讲话稿与在市委党的建设工作领导小组会议暨部署深入贯彻中央八项规定精神学习教育专题会讲话稿(两篇文).docx
- 2025年市工业园区党工委开展深入贯彻中央八项规定精神学习教育工作方案与深入贯彻中央八项规定精神学习教育动员部署会讲话提纲【2篇文】.docx
文档评论(0)