MoE架构革命:如何让万亿参数模型_快且省_.pptxVIP

  • 1
  • 0
  • 约2.19千字
  • 约 15页
  • 2026-06-25 发布于北京
  • 举报

MoE架构革命:如何让万亿参数模型_快且省_.pptx

2026/06MoE架构革命

如何让万亿参数模型快且省Moeimijiang

目录密集模型的困境与MoE的破局MoE核心原理与工程演进工程挑战与缓解方案产业影响与未来展密集模型的困境与MoE的破局01

密集模型的奢侈与浪费两层奢侈双重天花板计算浪费大量计算资源消耗在与当前输入关系微弱的参数上——用户问今天天气如何,存储古生物学术语的参数同样在GPU上跑了一遍线性增长模型规模扩展直接等同于计算成本的线性增长,更大模型必须配备更多算力物理层面单芯片计算能力提升速度已跟不上模型规模增长经济层面GPT-4量级模型推理成本虽在下降,但参数越大越好路线的成本曲线将很快让商业回报无法覆盖核心问题能否让模型拥有超大规模参数存储海量知识,但处理每个输入时只调动相关部分

MoE核心原理:稀疏激活与动态路由MoE不是完整模型架构,而是可嵌入Transformer等主干网络的设计范式大而稀疏专家MoE层包含N个并行FFN子网络,各自擅长不同领域(数学符号、法律术语、编程语法等)门控网络根据当前token表征,动态决定将其分配给哪几个专家处理动态路由不同token被路由到不同专家,门控网络在训练中自发学会分工,无需人工预设Top-K激活每个token通常只激活Top-K个专家(K=1或2),其余专家完全不参与计算Mixtral8x7B实例8个专家,每个7B参数FFN,总参数470亿T

文档评论(0)

1亿VIP精品文档

相关文档