- 1
- 0
- 约2.19千字
- 约 15页
- 2026-06-25 发布于北京
- 举报
2026/06MoE架构革命
如何让万亿参数模型快且省Moeimijiang
目录密集模型的困境与MoE的破局MoE核心原理与工程演进工程挑战与缓解方案产业影响与未来展密集模型的困境与MoE的破局01
密集模型的奢侈与浪费两层奢侈双重天花板计算浪费大量计算资源消耗在与当前输入关系微弱的参数上——用户问今天天气如何,存储古生物学术语的参数同样在GPU上跑了一遍线性增长模型规模扩展直接等同于计算成本的线性增长,更大模型必须配备更多算力物理层面单芯片计算能力提升速度已跟不上模型规模增长经济层面GPT-4量级模型推理成本虽在下降,但参数越大越好路线的成本曲线将很快让商业回报无法覆盖核心问题能否让模型拥有超大规模参数存储海量知识,但处理每个输入时只调动相关部分
MoE核心原理:稀疏激活与动态路由MoE不是完整模型架构,而是可嵌入Transformer等主干网络的设计范式大而稀疏专家MoE层包含N个并行FFN子网络,各自擅长不同领域(数学符号、法律术语、编程语法等)门控网络根据当前token表征,动态决定将其分配给哪几个专家处理动态路由不同token被路由到不同专家,门控网络在训练中自发学会分工,无需人工预设Top-K激活每个token通常只激活Top-K个专家(K=1或2),其余专家完全不参与计算Mixtral8x7B实例8个专家,每个7B参数FFN,总参数470亿T
您可能关注的文档
最近下载
- 广西民族大学2025年448 汉语写作与百科知识考研真题.pdf VIP
- 广西民族大学2025年365泰语翻译基础考研真题.pdf VIP
- AC空调温控器AC2982用户手册.pdf
- 吉林化工大学《高等数学下》2025 - 2026学年第一学期期末试卷(A卷).docx
- 《水处理剂用钛白粉副产硫酸》(征求意见稿).pdf VIP
- 2026项目部安全生产自查报告(3篇).docx VIP
- 应急事故池专项施工方案.docx VIP
- 机械制造技术课程设计-矩形花键轴的加工工艺及铣键槽夹具设计.doc
- (完整版)华南理工大学模电试题(附答案).pdf VIP
- T91_P91钢焊接工艺导则.pdf VIP
原创力文档

文档评论(0)