- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025年01⽉26⽇
Qwen2.5-1M技术报告
安阳,于博⽂,李诚远,刘⼤铮,⻩斐,⻩浩⾔,江建东,屠建宏,张建伟,周景仁,林俊阳,党凯,杨柯馨,乐⽟,李美,孙敏敏,朱钦,⻔瑞,何涛,徐伟佳,尹⽂彪,⽂元,余俊,秦宙明,邱霞⻜,任兴彰,杨新⻰,李勇,徐志颖,张芝鹏
章。
于,夏⻜,任兴彰,杨新⻰,李勇,许志鹰,张⼦鹏
章。
奋团队,阿里巴巴集团
摘要
在本报告中,我们介绍了Qwen2.5-1M系列模型,将上下⽂⻓度扩展到100万标记。与之
前的128K版本相⽐,Qwen2.5-1M系列通过⻓上下⽂的预训练和后训练,显著增强了⻓
上下⽂功能。通过⻓数据合成、渐进式预训练和多阶段监督微调等关键技术,有效提⾼
了⻓上下⽂的性能,同时降低了训练成本。
为了推⼴⻓上下⽂模型在更⼴泛的⽤⼾群之间的使⽤,我们展⽰并开源了我们的推理框
架。该框架包括⼀种⻓度外推⽅法,可以将模型的上下⽂⻓度扩展⾄⾄少四倍,甚⾄更
多,⽽⽆需额外训练。为了降低推理成本,我们实现了稀疏注意⼒⽅法,以及⽤于部署
场景的分块预填优化和⽤于提⾼精度的稀疏度优化⽅法。此外,我们详细介绍了推理引
擎中的优化,包括内核优化,管道并⾏和调度优化,显著提⾼了整体推理性能。通过利
⽤我们的推理框架,Qwen2.5-1M模型在具有100万标记上下⽂的场景中实现了显著的3
倍⾄7倍的预填加速。该框架为使⽤开源模型进⾏⻓上下⽂处理的应⽤提供了⾼效且强
⼤的解决⽅案。
Qwen2.5-1M系列⽬前包括开源模型Qwen2.5-7B-Instruct-
1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。
评估显⽰,Qwen2.5-1M模型在⻓⽂本任务中有了极⼤的改进,⽽在短⽂本情景中表现
出⾊能⼒并未受到影响。具体来说,Qwen2.5-14B-Instruct-1M模型在⻓⽂本任务中显
著优于GPT-4o-mini,⽀持⻓度为其⼋倍的上下⽂。
Qwen2.5-14B-Instruct-1M
⽂档顶部100%
检索准确率
您可能关注的文档
最近下载
- GB 50373-2019 通信管道与通道工程设计标准.docx
- 钱钟书《吃饭》课件.pptx VIP
- 肝功能异常解析课件.ppt VIP
- 赞美女员工的文章.doc VIP
- 哈弗-哈弗H6-产品使用说明书-哈弗H6 1.5T自动两驱精英型-CC6460RM07-哈弗H6(升级版)-使用说明书-中文-01-16.01-01M.pdf
- 财务管理专业研究生复试面试个人简历模板单页Word.docx
- 国际潘通色卡电子版(PMS+COLOUR+CHART)最新版-免费下载.pdf
- 省英语优质课Melting-ice教学课件.pptx
- 计算机毕业设计论文 基于OpenCV的疲劳驾驶预警系统.docx
- 二次根式测试题附.pdf VIP
文档评论(0)