- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DeepSeek-V2:AStrong,Economical,andEfficient
Mixture-of-ExpertsLanguageModel
DeepSeek-AI
research@
Abstract
4
2
0WepresentDeepSeek-V2,astrongMixture-of-Experts(MoE)languagemodelcharacterizedby
2
economicaltrainingandefficientinference.Itcomprises236Btotalparameters,ofwhich21B
n
uareactivatedforeachtoken,andsupportsacontextlengthof128Ktokens.DeepSeek-V2adopts
JinnovativearchitecturesincludingMulti-headLatentAttention(MLA)andDeepSeekMoE.
9MLAguaranteesefficientinferencethroughsignificantlycompressingtheKey-Value(KV)cache
1
intoalatentvector,whileDeepSeekMoEenablestrainingstrongmodelsataneconomical
]costthroughsparsecomputation.ComparedwithDeepSeek67B,DeepSeek-V2achieves
L
Csignificantlystrongerperformance,andmeanwhilesaves42.5%oftrainingcosts,reducesthe
s.KVcacheby93.3%,andbooststhemaximumgenerationthroughputto5.76times.Wepretrain
cDeepSeek-V2onahigh-qualityandmulti-sourcecorpusconsistingof8.1Ttokens,andfurther
[
performSupervisedFine-Tuning(SFT)andReinforcementLearning(RL)tofullyunlockits
5potential.Evaluationresultsshowthat,evenwithonly21Bactivatedparameters,DeepSeek-V2
v
4anditschatversionsstillachievetop-tierperformanceamongopen-sourcemodels.Themodel
3checkpointsareavailableat/deepseek-ai/DeepSeek-V2.
4
4
0TrainingCosts(KGPUHours/TTokens)
.
您可能关注的文档
- 6.1.7《互联网信息服务算法备案系统使用手册》.pdf
- 《基于SDP与DNS融合的零信任安全增强策略模型》 conv 1.docx
- 6.1.9《数据出境申报系统使用说明》 conv.docx
- 智能与预测性故障转移迈向弹性的错误对抗之路.pdf
- 安般易恒智能模糊测试系统V4.8.6_技术白皮书 conv.docx
- 【产品彩页】山石网科入侵检测防御系统v5.5.pdf
- 搭建虚拟网络环境 conv.docx
- 2025医疗领域人工智能信任构建:协同推进之道白皮书(英文版) conv.docx
- 基于docker的应急处置命令 conv.docx
- 汽车以太网: 查看真实信号-应用指南 (汽车以太网: (Z-Library).pdf
- 广东省东莞市2024-2025学年八年级上学期生物期中试题(解析版).pdf
- 非遗剪纸文创产品开发经理岗位招聘考试试卷及答案.doc
- 广东省东莞市2024-2025学年高二上学期期末教学质量检查数学试题.pdf
- 体育安全理论课件图片素材.ppt
- 3.1 公民基本权利 课件-2025-2026学年道德与法治八年级下册 统编版 .pptx
- 广东省潮州市湘桥区城南实验中学等校2024-2025学年八年级上学期期中地理试题(解析版).pdf
- 大数据运维工程师岗位招聘考试试卷及答案.doc
- 广东省深圳市福田区八校2026届数学八年级第一学期期末教学质量检测模拟试题含解析.doc
- 广东省潮州市湘桥区城基初级中学2024-2025学年八年级上学期11月期中考试数学试题(解析版).pdf
- 广东省潮州市湘桥区城西中学2024-2025学年八年级上学期期中地理试题(解析版).pdf
原创力文档


文档评论(0)