2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdfVIP

2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

华为昇腾服务器DeepSeekV3/R1推理部署最佳实践

樊玉伟,郑灵超,李勇锋,区晓峰,李君,KenZhang,韩伟,李亿

杜霄鹏,王鹏程,刘杰,董谷音,梁泓,柳伊扬,廖崎臣,高雪健

王鹏宇,赵毅,王翔,林栋,练韵文,林清扬,陈衎,庞西豹

吕俊龙,兰龙文,张维熹,丁益斌,高宇,陶壮,张弓,谢冬辉

范港华,范峻逸,胡琤球,李宝,郑乐文,陈付恺,申智好,金颖

华为技术有限公司

2025年5月19日

摘要

本报告旨在探讨华为昇腾服务器上部署DeepSeekV3/R1推理的最佳实践。为满足不同

推理场景的需求,本文提供两种不同的部署形态。第一种是基于华为CloudMatrix384超

节点的大规模EP部署策略:为充分发挥CloudMatrix384的独特组网优势,使用其中的

144张卡作为一个Decode实例,以实现较低时延下的高并发,当前已达到了50ms时延约

束下每卡输出1920Tokens/s。第二种是基于Atlas800IA2服务器的小规模EP部署策略:

使用4节点A2服务器作为一个Decode实例,以实现较优吞吐下的灵活部署,当前达到了

100ms时延约束下每卡输出723∼808Tokens/s。

我们采用基于vLLM的部署框架,并面向昇腾服务器进行修改以适配EP/DP/TP混合

并行策略,同时满足灵活调度和极致性能的需求。模型层面,采用A8W8(INT8)的动态量

化方式,并使用Multi-TokenPrediction技术进行加速。针对昇腾芯片和昇腾服务器组网特

征,从数学上重新审视模型的推理过程,选用了合适的并行方式和计算逻辑,同时还充分利

用了昇腾硬件支持多种多流并发的能力以最大化实现通信/计算/数据搬运的相互掩盖,实

现模型层面的性能极致。算子层面,提出了多种结合数学等价变换、融合算子、缓存复用和

流水掩盖等技术的计算和通信算子的优化方案,使MLA、MoE和通信算子达到预期的算

力利用率、访存带宽和通信带宽。

本报告将详细介绍上述两套部署方案,并列出关键的特性和优化技术,更详细的技术细

节之后会陆续公开。

1

目录

1引言3

2昇腾服务器和组网5

2.1昇腾芯片........................................5

2.2Atlas800IA2服务器..................................5

2.3CloudMatrix384超节点................................6

3DeepSeekV3/R1模型部署方案6

3.1模型与框架配置...................................

文档评论(0)

如此醉 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档