2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdfVIP

下载本文档

57
0
约3.5万字
约 29页
2025-05-26 发布于重庆
举报
版权申诉

2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

华为昇腾服务器DeepSeekV3/R1推理部署最佳实践

樊玉伟，郑灵超，李勇锋，区晓峰，李君，KenZhang，韩伟，李亿

杜霄鹏，王鹏程，刘杰，董谷音，梁泓，柳伊扬，廖崎臣，高雪健

王鹏宇，赵毅，王翔，林栋，练韵文，林清扬，陈衎，庞西豹

吕俊龙，兰龙文，张维熹，丁益斌，高宇，陶壮，张弓，谢冬辉

范港华，范峻逸，胡琤球，李宝，郑乐文，陈付恺，申智好，金颖

华为技术有限公司

2025年5月19日

摘要

本报告旨在探讨华为昇腾服务器上部署DeepSeekV3/R1推理的最佳实践。为满足不同

推理场景的需求，本文提供两种不同的部署形态。第一种是基于华为CloudMatrix384超

节点的大规模EP部署策略：为充分发挥CloudMatrix384的独特组网优势，使用其中的

144张卡作为一个Decode实例，以实现较低时延下的高并发，当前已达到了50ms时延约

束下每卡输出1920Tokens/s。第二种是基于Atlas800IA2服务器的小规模EP部署策略：

使用4节点A2服务器作为一个Decode实例，以实现较优吞吐下的灵活部署，当前达到了

100ms时延约束下每卡输出723∼808Tokens/s。

我们采用基于vLLM的部署框架，并面向昇腾服务器进行修改以适配EP/DP/TP混合

并行策略，同时满足灵活调度和极致性能的需求。模型层面，采用A8W8(INT8)的动态量

化方式，并使用Multi-TokenPrediction技术进行加速。针对昇腾芯片和昇腾服务器组网特

征，从数学上重新审视模型的推理过程，选用了合适的并行方式和计算逻辑，同时还充分利

用了昇腾硬件支持多种多流并发的能力以最大化实现通信/计算/数据搬运的相互掩盖，实

现模型层面的性能极致。算子层面，提出了多种结合数学等价变换、融合算子、缓存复用和

流水掩盖等技术的计算和通信算子的优化方案，使MLA、MoE和通信算子达到预期的算

力利用率、访存带宽和通信带宽。

本报告将详细介绍上述两套部署方案，并列出关键的特性和优化技术，更详细的技术细

节之后会陆续公开。

1引言3

2昇腾服务器和组网5

2.1昇腾芯片........................................5

2.2Atlas800IA2服务器..................................5

2.3CloudMatrix384超节点................................6

3DeepSeekV3/R1模型部署方案6

3.1模型与框架配置...................................

您可能关注的文档

文档评论（0）

如此醉 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdfVIP