互联网-浅谈DeepSeek的成本和跟行业对比.pdfVIP

下载本文档

0
0
约9.14千字
约 3页
2025-03-16 发布于北京
举报
版权申诉

互联网-浅谈DeepSeek的成本和跟行业对比.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

证券研究报告

互联网

浅谈DeepSeek的成本和跟行业对比

华泰研究

2025年2月04日│美国动态点评

DS引发资本市场对算力增长展望的担忧，但或迎来杰文斯悖论

DeepSeek（DS）低开发成本引发全球投资者对美国科技巨头高成本投资的

质疑，但其对算力的影响也许迎来杰文斯悖论（JevonsParadox）。微软CEO

SatyaNadella认为DS热潮或带来杰文斯悖论时刻，即通过降低成本推动

需求增加，从而促进AI商业化趋势的加速。ASMLCEOChristopheFouquet

也认同大模型训练成本降低可推动AI应用的发展，从而带动更多芯片需求。

我们认为，不管DS或其他类似模型的冒起，在Test-timeScalingLaw对算

力需求的驱动下，推理芯片或存在较大增长潜力。相较于训练芯片，推理芯

片的研发门槛较低，包括博通和Marvell等，以及台系ALChip、GlobalUni

和联发科均涉足ASIC设计业务。TrendForce曾提及英伟达或将成立ASIC

部门。我们认为英伟达或意识到来自科技巨头的自研芯片竞争，包括亚马逊

Trainium、谷歌TPU、MetaMTIA以及微软Maia，特别在推理端。

DS较低的训练成本会否影响算力需求?

MetaLlama3.1与DSV3技术报告显示，Llama3.1405B模型训练需30M

H100小时和15TTokens训练语料，成本超6000万美元，而DSV3（37B

激活参数）只需2.8MH800小时，训练成本约600万美元。不过，该成本

仅包括训练V3的GPU租赁成本（2048块H800训练一次的花销），并不

包括人员薪酬、数据标注费用，以及训练失败产生的额外费用等。从推理

API调用价格看，V3输入/输出价格分别为0.9/1.1美元每百万Token，仅为

o1模型的2-3%，Llama3.1405B的30%。我们认为DS实现低成本的原

因包括：1）采用FP8和FP32混合精度，FP8对算力需求更少；2）采用

DualPipe双重流水线设计，减少数据传输和计算之间的等待时间，提高计

算资源利用率；3）DS作为后发追赶者也可在现有玩家的算法上做深度优化。

FP8混合精度训练如何提升DSV3的计算效率？

FP8混合精度训练是DSV3提高计算效率的核心。此前，行业已从FP32

（全浮点）转向FP16（半浮点）训练，而FP8能进一步把算力需求减半。

在V3中，前向传播、激活反向传播以及权重反向传播模块均采用FP8计算，

速度相较FP16提高100%。为保证精度，敏感算子如MoE门控模块、注

意力算子等，仍保留FP16或FP32格式，使精度损失控制在0.25%以内。

目前，使用FP8进行大模型训练的案例较少，微软曾于2023年做过相关研

究，特斯拉也采用FP8训练其自动驾驶模型，均认为低精度训练是降本的

重要路径。且英伟达Hopper和AdaLovelace架构均增加对FP8的硬件支

持。本次，FP8的推出或促进更多优化技巧和混合精度训练流程绑定，且英

伟达Blackwell架构更进一步拓展低精度范围，支持FP6和FP4格式。

R1模型对于大模型技术发展、算力需求和行业格局有何影响？

1）从技术发展看：R1证明无需大量人工标注的强化学习的潜力，有望突破

传统大模型依赖监督数据微调的限制；2）从算力需求看：R1推动AI训练

与推理进入低成本、高效学习的新模式，有望加速ASIC在推理端落地。我

们预计GPU与ASIC两种芯片不是零和博弈，并将长期共存，为终端应用

场景提供兼具两者优势的解决方案；3）从行业格局看：R1的发布或较大影

响以博通、Marvell为代表的ASIC设计公司，其将或面临英伟达的跨赛道

竞争；液冷、光模块和铜缆需求或因训练效率提升受短期影响，但在杰文斯

悖论推动下，AI应用与推

您可能关注的文档

文档评论（0）

Seeker研报 + 关注: 实名认证

文档贡献者

如果有被下架的，可以私我发你，欢迎垂询各种研究报告！也可以咨询定制获取特定主题报告，欢迎光临！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

互联网-浅谈DeepSeek的成本和跟行业对比.pdfVIP