阿里团队Qwen2.5-1M系列大模型技术报告.pdf

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2025年01⽉26⽇

Qwen2.5-1M技术报告

安阳，于博⽂，李诚远，刘⼤铮，⻩斐，⻩浩⾔，江建东，屠建宏，张建伟，周景仁，林俊阳，党凯，杨柯馨，乐⽟，李美，孙敏敏，朱钦，⻔瑞，何涛，徐伟佳，尹⽂彪，⽂元，余俊，秦宙明，邱霞⻜，任兴彰，杨新⻰，李勇，徐志颖，张芝鹏

章。

于，夏⻜，任兴彰，杨新⻰，李勇，许志鹰，张⼦鹏

章。

奋团队，阿里巴巴集团

摘要

在本报告中，我们介绍了Qwen2.5-1M系列模型，将上下⽂⻓度扩展到100万标记。与之

前的128K版本相⽐，Qwen2.5-1M系列通过⻓上下⽂的预训练和后训练，显著增强了⻓

上下⽂功能。通过⻓数据合成、渐进式预训练和多阶段监督微调等关键技术，有效提⾼

了⻓上下⽂的性能，同时降低了训练成本。

为了推⼴⻓上下⽂模型在更⼴泛的⽤⼾群之间的使⽤，我们展⽰并开源了我们的推理框

架。该框架包括⼀种⻓度外推⽅法，可以将模型的上下⽂⻓度扩展⾄⾄少四倍，甚⾄更

多，⽽⽆需额外训练。为了降低推理成本，我们实现了稀疏注意⼒⽅法，以及⽤于部署

场景的分块预填优化和⽤于提⾼精度的稀疏度优化⽅法。此外，我们详细介绍了推理引

擎中的优化，包括内核优化，管道并⾏和调度优化，显著提⾼了整体推理性能。通过利

⽤我们的推理框架，Qwen2.5-1M模型在具有100万标记上下⽂的场景中实现了显著的3

倍⾄7倍的预填加速。该框架为使⽤开源模型进⾏⻓上下⽂处理的应⽤提供了⾼效且强

⼤的解决⽅案。

Qwen2.5-1M系列⽬前包括开源模型Qwen2.5-7B-Instruct-

1M和Qwen2.5-14B-Instruct-1M，以及API访问模型Qwen2.5-Turbo。

评估显⽰，Qwen2.5-1M模型在⻓⽂本任务中有了极⼤的改进，⽽在短⽂本情景中表现

出⾊能⼒并未受到影响。具体来说，Qwen2.5-14B-Instruct-1M模型在⻓⽂本任务中显

著优于GPT-4o-mini，⽀持⻓度为其⼋倍的上下⽂。

Qwen2.5-14B-Instruct-1M

⽂档顶部100%

检索准确率

该用户很懒，什么也没介绍

咨询Ta 进入空间

更多 >