SUBLLM新架构：文本下采样机制革新大语言模型效率.docx

下载文档

1
0
约4.66千字
约 44页
2025-03-26 发布于北京
举报
版权申诉
保障服务

SUBLLM新架构：文本下采样机制革新大语言模型效率.docx

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SUBLLM新架构：

文本下采样机制革新大语言模型效率

王全东小米大模型团队

演讲嘉宾

王全东

小米大模型团队大模型高级算法工程师

中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级

工程师，长期从事大语言模型、多模态、语音识别等领域研究，曾获多项顶会竞赛冠亚军奖项，已发表顶会论文十余篇，拥有专列多项。深度参与了小米自研大模型从0到1的研发过程，荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构，被量子位等科技媒体报道。

1.长文本模型的技术挑战

目录CONTENTS2.

CONTENTS

3.主要实验结果

4.分析与讨论

5.总结与展望

PART01

长文本模型的技术挑战

长文本需求旺盛

…

长文本模型的技术挑战

长文本模型结构：

DecoderonlyTransformer结构：Llama类似结构，attention的平方复杂度

长文本模型的技术挑战

训练成本高：attention的平方复杂度

32K窗长8k窗长1M窗长200K窗长

32K窗长

8k窗长

1M窗长

2~15Ttokens5~10Btokens5~10Btokens

2~15Ttokens

5~10Btokens

主要优化点

长文本模型的技术挑战

模型窗长扩展方法：数据方向，训练成本不高

1.DataEngineeringforScalingLanguageModelsto128KContext

长文本模型的技术挑战

模型窗长扩展方法：位置编码方向，训练成本不高

2.YaRN:EfficientContextWindowExtensionofLargeLanguageModelsNTK-by-parts+温度控制

长文本模型的技术挑战

模型窗长扩展方法：位置编码方向，训练成本不高

3.PoSE:EfficientContextWindowExtensionofLLMsviaPositionalSkip-wiseTraining

长文本模型的技术挑战

训练成本主要在8k预训练阶段：attention的平方复杂度

32K窗长8k窗长1M窗长200K窗长

32K窗长

8k窗长

1M窗长

2~15Ttokens5~10Btokens5~10Btokens

2~15Ttokens

5~10Btokens

主要优化点

长文本模型的技术挑战

DecoderonlyTransformer长文本模型训练infra开发

1.DeepSpeedUlysses：

优势：对Attention的实现不敏感，适合各种attention方法

劣势：序列并行度不能超过头数

长文本模型的技术挑战

DecoderonlyTransformer长文本模型训练infra开发

2.Ring-attention：“大号”的flashattention

优势：并行度的扩展性较好

劣势：对Attention变种不友好，eg.SparseAttention

长文本模型的技术挑战

推理成本高：attention的平方复杂度

推理速度角度，200k比20k贵28倍，比2k贵112倍

长文本模型的技术挑战

其他长文本模型结构：

1.Infini-Transformer：长期压缩记忆和局部因果注意力attention

Infini-Transformer模型结构byGoogle,2024

长文本模型的技术挑战

其他长文本模型结构：

2.MEGALODON：继承MEGA(带有门控注意力的指数移动平均)并改进

MEGALODON模型结构byMeta,2024

长文本模型的技术挑战

加速方法很多备受关注SUBLLM应运而生

PART02

SUBLLM架构

目标:

1.开发一种优化资源使用的架构，同时保持模型能力不变。

2.区分重要token和不重要token，重要token占主要算力

3.兼容现有atte

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

内容提供者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

SUBLLM新架构：文本下采样机制革新大语言模型效率.docx