网站大量收购独家精品文档,联系QQ:2885784924

SUBLLM新架构:文本下采样机制革新大语言模型效率.docx

SUBLLM新架构:文本下采样机制革新大语言模型效率.docx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SUBLLM新架构:

文本下采样机制革新大语言模型效率

王全东小米大模型团队

演讲嘉宾

王全东

小米大模型团队大模型高级算法工程师

中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级

工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等科技媒体报道。

1.长文本模型的技术挑战

目录CONTENTS2.

目录

CONTENTS

3.主要实验结果

4.分析与讨论

5.总结与展望

PART01

长文本模型的技术挑战

长文本模型的技术挑战

长文本需求旺盛

长文本模型的技术挑战

长文本模型结构:

DecoderonlyTransformer结构:Llama类似结构,attention的平方复杂度

长文本模型的技术挑战

训练成本高:attention的平方复杂度

32K窗长8k窗长1M窗长200K窗长

32K窗长

8k窗长

1M窗长

2~15Ttokens5~10Btokens5~10Btokens

2~15Ttokens

5~10Btokens

5~10Btokens

主要优化点

长文本模型的技术挑战

模型窗长扩展方法:数据方向,训练成本不高

1.DataEngineeringforScalingLanguageModelsto128KContext

长文本模型的技术挑战

模型窗长扩展方法:位置编码方向,训练成本不高

2.YaRN:EfficientContextWindowExtensionofLargeLanguageModelsNTK-by-parts+温度控制

长文本模型的技术挑战

模型窗长扩展方法:位置编码方向,训练成本不高

3.PoSE:EfficientContextWindowExtensionofLLMsviaPositionalSkip-wiseTraining

长文本模型的技术挑战

训练成本主要在8k预训练阶段:attention的平方复杂度

32K窗长8k窗长1M窗长200K窗长

32K窗长

8k窗长

1M窗长

2~15Ttokens5~10Btokens5~10Btokens

2~15Ttokens

5~10Btokens

5~10Btokens

主要优化点

长文本模型的技术挑战

DecoderonlyTransformer长文本模型训练infra开发

1.DeepSpeedUlysses:

优势:对Attention的实现不敏感,适合各种attention方法

劣势:序列并行度不能超过头数

长文本模型的技术挑战

DecoderonlyTransformer长文本模型训练infra开发

2.Ring-attention:“大号”的flashattention

优势:并行度的扩展性较好

劣势:对Attention变种不友好,eg.SparseAttention

长文本模型的技术挑战

推理成本高:attention的平方复杂度

推理速度角度,200k比20k贵28倍,比2k贵112倍

长文本模型的技术挑战

其他长文本模型结构:

1.Infini-Transformer:长期压缩记忆和局部因果注意力attention

Infini-Transformer模型结构byGoogle,2024

长文本模型的技术挑战

其他长文本模型结构:

2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进

MEGALODON模型结构byMeta,2024

长文本模型的技术挑战

加速方法很多备受关注SUBLLM应运而生

PART02

SUBLLM架构

SUBLLM架构

目标:

1.开发一种优化资源使用的架构,同时保持模型能力不变。

2.区分重要token和不重要token,重要token占主要算力

3.兼容现有atte

文档评论(0)

哈哈 + 关注
实名认证
内容提供者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档