网站大量收购独家精品文档,联系QQ:2885784924

SUBLLM新架构:文本下采样机制革新大语言模型效率.pptx

SUBLLM新架构:文本下采样机制革新大语言模型效率.pptx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SUBLLM新架构:

文本下采样机制革新大语言模型效率

王全东小米大模型团队;

中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级

工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项

顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等科技媒体报道。;

1.长文本模型的技术挑战

2.SUBLLM架构

3.主要实验结果

4.分析与讨论

5.总结与展望;

PART01

长文本模型的技术挑战;

长文本模型的技术挑战

长文本需求旺盛;

长文本模型的技术挑战

长文本模型结构:

DecoderonlyTransformer结构:Llama类似结构,attention的平方复杂度;;

长文本模型的技术挑战

模型窗长扩展方法:数据方向,训练成本不高

1.DataEngineeringforScalingLanguageModelsto128KContext;

长文本模型的技术挑战

模型窗长扩展方法:位置编码方向,训练成本不高

2.YaRN:EfficientContextWindowExtensionofLargeLanguageModelsNTK-by-parts+温度控制;

长文本模型的技术挑战

模型窗长扩展方法:位置编码方向,训练成本不高

3.PoSE:EfficientContextWindowExtensionofLLMsviaPositionalSkip-wiseTraining;;

长文本模型的技术挑战

DecoderonlyTransformer长文本模型训练infra开发

1.DeepSpeedUlysses:

优势:对Attention的实现不敏感,适合各种attention方法

劣势:序列并行度不能超过头数;

长文本模型的技术挑战

DecoderonlyTransformer长文本模型训练infra开发

2.Ring-attention:“大号”的flashattention

优势:并行度的扩展性较好

劣势:对Attention变种不友好,eg.SparseAttention;

长文本模型的技术挑战

推理成本高:attention的平方复杂度

推理速度角度,200k比20k贵28倍,比2k贵112倍;

长文本模型的技术挑战

其他长文本模型结构:

1.Infini-Transformer:长期压缩记忆和局部因果注意力attention;

长文本模??的技术挑战

其他长文本模型结构:

2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进;

长文本模型的技术挑战

加速方法很多备受关注SUBLLM应运而生;

PART02

SUBLLM架构;

SUBLLM架构

目标:

1.开发一种优化资源使用的架构,同时保持模型能力不变。

2.区分重要token和不重要token,重要token占主要算力

3.兼容现有attentionbased模型生态,模型广泛应用的关键;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息

语音识别中语音分帧后降采样4倍;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息

语音识别Zipformer,最高降采样16倍;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息

文本序列是否存在冗余?Yes!;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息

文本序列是否存在冗余?Yes!;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息

文本序列中的token是否同等重要?No!;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息;

SUBLLM架构

受语音领域启发:语音信号下采样减少冗余保留必要信息;

序列采样,index

文档评论(0)

哈哈 + 关注
实名认证
内容提供者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档