- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SUBLLM新架构:
文本下采样机制革新大语言模型效率
王全东小米大模型团队;
中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级
工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项
顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等科技媒体报道。;
1.长文本模型的技术挑战
2.SUBLLM架构
3.主要实验结果
4.分析与讨论
5.总结与展望;
PART01
长文本模型的技术挑战;
长文本模型的技术挑战
长文本需求旺盛;
长文本模型的技术挑战
长文本模型结构:
DecoderonlyTransformer结构:Llama类似结构,attention的平方复杂度;;
长文本模型的技术挑战
模型窗长扩展方法:数据方向,训练成本不高
1.DataEngineeringforScalingLanguageModelsto128KContext;
长文本模型的技术挑战
模型窗长扩展方法:位置编码方向,训练成本不高
2.YaRN:EfficientContextWindowExtensionofLargeLanguageModelsNTK-by-parts+温度控制;
长文本模型的技术挑战
模型窗长扩展方法:位置编码方向,训练成本不高
3.PoSE:EfficientContextWindowExtensionofLLMsviaPositionalSkip-wiseTraining;;
长文本模型的技术挑战
DecoderonlyTransformer长文本模型训练infra开发
1.DeepSpeedUlysses:
优势:对Attention的实现不敏感,适合各种attention方法
劣势:序列并行度不能超过头数;
长文本模型的技术挑战
DecoderonlyTransformer长文本模型训练infra开发
2.Ring-attention:“大号”的flashattention
优势:并行度的扩展性较好
劣势:对Attention变种不友好,eg.SparseAttention;
长文本模型的技术挑战
推理成本高:attention的平方复杂度
推理速度角度,200k比20k贵28倍,比2k贵112倍;
长文本模型的技术挑战
其他长文本模型结构:
1.Infini-Transformer:长期压缩记忆和局部因果注意力attention;
长文本模??的技术挑战
其他长文本模型结构:
2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进;
长文本模型的技术挑战
加速方法很多备受关注SUBLLM应运而生;
PART02
SUBLLM架构;
SUBLLM架构
目标:
1.开发一种优化资源使用的架构,同时保持模型能力不变。
2.区分重要token和不重要token,重要token占主要算力
3.兼容现有attentionbased模型生态,模型广泛应用的关键;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息
语音识别中语音分帧后降采样4倍;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息
语音识别Zipformer,最高降采样16倍;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息
文本序列是否存在冗余?Yes!;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息
文本序列是否存在冗余?Yes!;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息
文本序列中的token是否同等重要?No!;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息;
SUBLLM架构
受语音领域启发:语音信号下采样减少冗余保留必要信息;
序列采样,index
您可能关注的文档
- 中国研发经费报告2024.pptx
- 2025年中国人才激励白皮书.pptx
- 2025年中国家电零售与创新白皮书-奥维云网.pptx
- 艾瑞咨询:2025年居家健康放松方式研究白皮书.pptx
- 大语言模型服务管理的实践分享.pptx
- 2024年户外运动线上消费发展报告.pptx
- 2025年中美机器人发展深度分析报告(初稿).pptx
- 中国参与国际通信海缆建设和保护相关情况报告(2025年).pptx
- 质量大模型及其在接口测试场景下的实践.pptx
- 2025年医美水光针行业简析报告-嘉世咨询.pptx
- DB3411_T 0009-2022 池河糕小作坊生产规范.docx
- DB3410_T 21-2023 多花黄精病虫害绿色防控技术规程.docx
- DB3415_T 17-2021 茯神栽培技术规程.docx
- DB3415_T 20-2021 山区茶树气象灾害指标划分技术规范.docx
- DB3415_T 24-2022 六安瓜片茶 手工炒制加工技术规程.docx
- DB3415_T 25-2022 六安瓜片茶 机械炒制加工技术规程.docx
- DB3415_T 58-2023 预制菜包装、贮存、运输规范.docx
- DB3417_T 014-2022 池州特色小吃 贵池小粑.docx
- DB3418_T 014-2022 电机检验检测机构后勤服务规范.docx
- DB3418_T 015-2022 电机检验检测机构客户服务规范.docx
最近下载
- 船舶压载水处理技术研究现状与发展趋势分析.docx VIP
- 冀教版八年级下册英语 Unit 3 Animals Are Our Friends Lesson 16 The Bear Escaped! 授课课件.ppt VIP
- CIIPA·中德企业投资合作年度报告2022-2023.pdf
- 19《十里长街送总理》(课件)六年级语文上册(统编五四学制2024版).pptx
- (试题)手术室护理实践指南试题.docx VIP
- 中国科学院大学考研复试模板.pptx VIP
- (完整版)EN62366-1-2015中文版.pdf VIP
- 四、1. 认识20-99(课件)2024-2025学年度苏教版数学一年级下册.pptx VIP
- 公司新员工培训记录表.docx
- 不要再笑了裘裘幼儿园中班语言PPT课件.ppt VIP
文档评论(0)