网站大量收购独家精品文档,联系QQ:2885784924

互联网-浅谈DeepSeek的成本和跟行业对比.pdfVIP

互联网-浅谈DeepSeek的成本和跟行业对比.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

证券研究报告

互联网

浅谈DeepSeek的成本和跟行业对比

华泰研究

2025年2月04日│美国动态点评

DS引发资本市场对算力增长展望的担忧,但或迎来杰文斯悖论

DeepSeek(DS)低开发成本引发全球投资者对美国科技巨头高成本投资的

质疑,但其对算力的影响也许迎来杰文斯悖论(JevonsParadox)。微软CEO

SatyaNadella认为DS热潮或带来杰文斯悖论时刻,即通过降低成本推动

需求增加,从而促进AI商业化趋势的加速。ASMLCEOChristopheFouquet

也认同大模型训练成本降低可推动AI应用的发展,从而带动更多芯片需求。

我们认为,不管DS或其他类似模型的冒起,在Test-timeScalingLaw对算

力需求的驱动下,推理芯片或存在较大增长潜力。相较于训练芯片,推理芯

片的研发门槛较低,包括博通和Marvell等,以及台系ALChip、GlobalUni

和联发科均涉足ASIC设计业务。TrendForce曾提及英伟达或将成立ASIC

部门。我们认为英伟达或意识到来自科技巨头的自研芯片竞争,包括亚马逊

Trainium、谷歌TPU、MetaMTIA以及微软Maia,特别在推理端。

DS较低的训练成本会否影响算力需求?

MetaLlama3.1与DSV3技术报告显示,Llama3.1405B模型训练需30M

H100小时和15TTokens训练语料,成本超6000万美元,而DSV3(37B

激活参数)只需2.8MH800小时,训练成本约600万美元。不过,该成本

仅包括训练V3的GPU租赁成本(2048块H800训练一次的花销),并不

包括人员薪酬、数据标注费用,以及训练失败产生的额外费用等。从推理

API调用价格看,V3输入/输出价格分别为0.9/1.1美元每百万Token,仅为

o1模型的2-3%,Llama3.1405B的30%。我们认为DS实现低成本的原

因包括:1)采用FP8和FP32混合精度,FP8对算力需求更少;2)采用

DualPipe双重流水线设计,减少数据传输和计算之间的等待时间,提高计

算资源利用率;3)DS作为后发追赶者也可在现有玩家的算法上做深度优化。

FP8混合精度训练如何提升DSV3的计算效率?

FP8混合精度训练是DSV3提高计算效率的核心。此前,行业已从FP32

(全浮点)转向FP16(半浮点)训练,而FP8能进一步把算力需求减半。

在V3中,前向传播、激活反向传播以及权重反向传播模块均采用FP8计算,

速度相较FP16提高100%。为保证精度,敏感算子如MoE门控模块、注

意力算子等,仍保留FP16或FP32格式,使精度损失控制在0.25%以内。

目前,使用FP8进行大模型训练的案例较少,微软曾于2023年做过相关研

究,特斯拉也采用FP8训练其自动驾驶模型,均认为低精度训练是降本的

重要路径。且英伟达Hopper和AdaLovelace架构均增加对FP8的硬件支

持。本次,FP8的推出或促进更多优化技巧和混合精度训练流程绑定,且英

伟达Blackwell架构更进一步拓展低精度范围,支持FP6和FP4格式。

R1模型对于大模型技术发展、算力需求和行业格局有何影响?

1)从技术发展看:R1证明无需大量人工标注的强化学习的潜力,有望突破

传统大模型依赖监督数据微调的限制;2)从算力需求看:R1推动AI训练

与推理进入低成本、高效学习的新模式,有望加速ASIC在推理端落地。我

们预计GPU与ASIC两种芯片不是零和博弈,并将长期共存,为终端应用

场景提供兼具两者优势的解决方案;3)从行业格局看:R1的发布或较大影

响以博通、Marvell为代表的ASIC设计公司,其将或面临英伟达的跨赛道

竞争;液冷、光模块和铜缆需求或因训练效率提升受短期影响,但在杰文斯

悖论推动下,AI应用与推

您可能关注的文档

文档评论(0)

Seeker研报 + 关注
实名认证
文档贡献者

如果有被下架的,可以私我发你,欢迎垂询各种研究报告!也可以咨询定制获取特定主题报告,欢迎光临!

1亿VIP精品文档

相关文档