- 0
- 0
- 约6.82万字
- 约 24页
- 2026-02-10 发布于浙江
- 举报
2025-01-26
Qwen2.5-1MTechnicalReport
AnYang,BowenYu,ChengyuanLi,DayihengLiu,FeiHuang,HaoyanHuang,JiandongJiang,JianhongTu,JianweiZhang,JingrenZhou,JunyangLin,KaiDang,KexinYang,Le
Yu,MeiLi,MinminSun,QinZhu,RuiMen,TaoHe,WeijiaXu,WenbiaoYin,Wenyuan
Yu,XiafeiQiu,XingzhangRen,XinlongYang,YongLi,ZhiyingXu,ZipengZhang?QwenTeam,AlibabaGroup
Abstract
Inthisreport,weintroduceQwen2.5-1M,aseriesofmodelsthatextendthecontextlengthto1milliontokens.Comparedtotheprevious128Kversion,theQwen2.5-1Mserieshavesignificantlyenhancedlong-contextcapabilitiesthroughlong-contextpre-trainingandpost-training.Keytechniquessuchaslongdatasynthesis,progressivepre-training,andmulti-stagesupervisedfine-tuningareemployedtoeffectivelyenhancelong-contextperformancewhilereducingtrainingcosts.
Topromotetheuseoflong-contextmodelsamongabroaderuserbase,wepresentandopen-sourceourinferenceframework.Thisframeworkincludesalengthextrapolationmethodthatcanexpandthemodelcontextlengthsbyatleastfourtimes,orevenmore,withoutadditionaltraining.Toreduceinferencecosts,weimplementasparseattentionmethodalongwithchunkedprefilloptimizationfordeploymentscenariosandasparsityrefinementmethodtoimproveprecision.Additionally,wedetailouroptimizationsintheinferenceengine,includingkerneloptimization,pipelineparallelism,andschedulingoptimization,whichsignificantlyenhanceoverallinferenceperformance.Byleveragingourinferenceframework,theQwen2.5-1Mmodelsachievearemarkable3xto7xprefillspeedupinscenarioswith1milliontokensofcontext.Thisframeworkprovidesanefficientandpowerfulsolutionfordevelopingapplicationsthatrequirelong-contextprocessingusingopen-sourcemodels.
TheQwen2.5-1Mseriescurrentlyincludestheopen-sourcemodelsQwen2.5-7B-Instruct-1MandQwen2.5-14B-Instruct-1M,aswellastheAPI
您可能关注的文档
- SpyCloud:2024年度身份暴露报告 英文版 .docx
- STAR Enabled Solutions FAQ - 020123信息安全资料 .docx
- STAR Program Overview信息安全资料 .docx
- STAR Registry FAQ信息安全资料 .docx
- T∕CSAE 211-2021 智能网联汽车数据共享安全要求 .docx
- T∕SXQCTB 001-2023 汽车制造工业控制系统信息安全技术规范 .docx
- TDSAG 004-2025 广东省政务云应用系统上线前风险评估指引 .docx
- the-essential-guide-to-ueba信息安全资料 .docx
- Threat Hunting with Splunk信息安全资料 .docx
- Veracode:2025年度全球软件安全状况报告:成熟度新视角(英文版) .docx
- 海康机器人CoaXPress口工业面阵相机用户手册V2.0.4.pdf
- 海康机器人50 Gbps光口采集卡用户手册V1.0.1.pdf
- Ricoh理光 A4彩色多功能打印机 M C250FWB User's Guide 用户手册_简体中文.pdf
- 狐狸家 东方文化儿童教育品牌 说明书.pdf
- Ricoh理光 A4彩色多功能打印机 IM C320F User Guide (Selected Version) 用户手册_繁体中文.pdf
- 海康机器人工业长波红外测温相机用户手册V1.2.0.pdf
- Ricoh理光 A4彩色多功能打印机 IM C320F User Guide (Selected Version) 用户手册_英语.pdf
- CSC DONGFU PROPERTY SERVICE 2023社会责任报告 企业社会责任报告说明书.pdf
- Ricoh理光 A4彩色多功能打印机 M C250FWB Google Cloud Print Guide 用户手册_繁体中文.pdf
- 海康机器人3000系列视觉控制器用户手册V1.1.8.pdf
最近下载
- 佳能Canon Powershot SX220 HS_SX230 HS(中文)说明书.pdf VIP
- 钢结构2018年定额.pdf
- 公司内部之间的转账合同6篇.docx VIP
- 2025年无人机驾驶员执照失控恢复中的遥控器链路中断应对专题试卷及解析.pdf VIP
- Supor 苏泊尔 JP12D-800温养破壁料理机说明书.pdf
- 喜人奇妙夜小品《分工明确》完整剧本(含赏析)【精选】.docx VIP
- 2026-2031中国无人船无人潜航器行业市场规模及投资前景预测分析报告.docx VIP
- GBT 1800.1-2020 产品几何技术规范(GPS) 线性尺寸公差ISO代号体系 第1部分:公差、.pdf
- 《计算机应用基础》课程上机操作题.doc VIP
- 2025年金融风险管理师CDS与债券基差的交易策略专题试卷及解析.pdf VIP
原创力文档

文档评论(0)