- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
证券研究报告
互联网
浅谈DeepSeek的成本和跟行业对比
华泰研究
2025年2月04日│美国动态点评
DS引发资本市场对算力增长展望的担忧,但或迎来杰文斯悖论
DeepSeek(DS)低开发成本引发全球投资者对美国科技巨头高成本投资的
质疑,但其对算力的影响也许迎来杰文斯悖论(JevonsParadox)。微软CEO
SatyaNadella认为DS热潮或带来杰文斯悖论时刻,即通过降低成本推动
需求增加,从而促进AI商业化趋势的加速。ASMLCEOChristopheFouquet
也认同大模型训练成本降低可推动AI应用的发展,从而带动更多芯片需求。
我们认为,不管DS或其他类似模型的冒起,在Test-timeScalingLaw对算
力需求的驱动下,推理芯片或存在较大增长潜力。相较于训练芯片,推理芯
片的研发门槛较低,包括博通和Marvell等,以及台系ALChip、GlobalUni
和联发科均涉足ASIC设计业务。TrendForce曾提及英伟达或将成立ASIC
部门。我们认为英伟达或意识到来自科技巨头的自研芯片竞争,包括亚马逊
Trainium、谷歌TPU、MetaMTIA以及微软Maia,特别在推理端。
DS较低的训练成本会否影响算力需求?
MetaLlama3.1与DSV3技术报告显示,Llama3.1405B模型训练需30M
H100小时和15TTokens训练语料,成本超6000万美元,而DSV3(37B
激活参数)只需2.8MH800小时,训练成本约600万美元。不过,该成本
仅包括训练V3的GPU租赁成本(2048块H800训练一次的花销),并不
包括人员薪酬、数据标注费用,以及训练失败产生的额外费用等。从推理
API调用价格看,V3输入/输出价格分别为0.9/1.1美元每百万Token,仅为
o1模型的2-3%,Llama3.1405B的30%。我们认为DS实现低成本的原
因包括:1)采用FP8和FP32混合精度,FP8对算力需求更少;2)采用
DualPipe双重流水线设计,减少数据传输和计算之间的等待时间,提高计
算资源利用率;3)DS作为后发追赶者也可在现有玩家的算法上做深度优化。
FP8混合精度训练如何提升DSV3的计算效率?
FP8混合精度训练是DSV3提高计算效率的核心。此前,行业已从FP32
(全浮点)转向FP16(半浮点)训练,而FP8能进一步把算力需求减半。
在V3中,前向传播、激活反向传播以及权重反向传播模块均采用FP8计算,
速度相较FP16提高100%。为保证精度,敏感算子如MoE门控模块、注
意力算子等,仍保留FP16或FP32格式,使精度损失控制在0.25%以内。
目前,使用FP8进行大模型训练的案例较少,微软曾于2023年做过相关研
究,特斯拉也采用FP8训练其自动驾驶模型,均认为低精度训练是降本的
重要路径。且英伟达Hopper和AdaLovelace架构均增加对FP8的硬件支
持。本次,FP8的推出或促进更多优化技巧和混合精度训练流程绑定,且英
伟达Blackwell架构更进一步拓展低精度范围,支持FP6和FP4格式。
R1模型对于大模型技术发展、算力需求和行业格局有何影响?
1)从技术发展看:R1证明无需大量人工标注的强化学习的潜力,有望突破
传统大模型依赖监督数据微调的限制;2)从算力需求看:R1推动AI训练
与推理进入低成本、高效学习的新模式,有望加速ASIC在推理端落地。我
们预计GPU与ASIC两种芯片不是零和博弈,并将长期共存,为终端应用
场景提供兼具两者优势的解决方案;3)从行业格局看:R1的发布或较大影
响以博通、Marvell为代表的ASIC设计公司,其将或面临英伟达的跨赛道
竞争;液冷、光模块和铜缆需求或因训练效率提升受短期影响,但在杰文斯
悖论推动下,AI应用与推
您可能关注的文档
- 宏观策略周报:DeepSeek或重塑AI产业格局,关注中国科技龙头.pdf
- 胡润2025中国金融市场投资者洞见白皮书.pdf
- 互联网:DeepSeek成本和性能双突破,有望加速国内AI进程.pdf
- 互联网-浅谈DeepSeek的创新性,对比科技巨头和OpenAI.pdf
- 互联网行业:以DeepSeek视角,解读DeepSeek逆袭.pdf
- 计算机-DeepSeek核心十问十答.pdf
- 计算机设备-国产大模型进展快速,Deepseek-V2和通义千问2.5均展现强大性能.pdf
- 计算机行业:DEEPSEEK_V3发布,技术创新和商业化落地的共振-241228-财通证券-11页.pdf
- 计算机行业2025年1月投资策略:国产deepseek+豆包发力,海内外大模型刺激推理算力.pdf
- 计算机行业周报:全球科技盛会CES 2025开幕在即,DeepSeek-V3开启普惠AGI新篇章.pdf
- 新视野二版听说1第6单元示范1课件.ppt
- 【参考答案】 联络口译(第二版) 《联络口译》(第二版)参考答案.pdf
- 梅大高速茶阳路段“5·1”塌方灾害调查评估报告.docx
- 虹吸雨水PE管施工节点标准做法.pdf
- 2025消防设施施工质量常见通病防治手册,典型图示+规范要求.pptx
- 新视野大学英语(第二版)读写教程 4 空军工程大学编U05B.ppt
- E英语教程2(智慧版)Unit 6.pptx
- E英语教程3(智慧版)Unit 7.ppt
- 新视野二版读写1第4单元课件Section A How to Make a Good Impression.pptx
- E英语视听说教程4(智慧版)4-U2课件(2024版)U2.pptx
最近下载
- 2021年首届北京市大学生模拟法庭竞赛16进8淘汰赛赛题(二).docx VIP
- 2025年无锡工艺职业技术学院单招职业适应性测试题库及参考答案.docx VIP
- 旋元佑文法(2019新版)-01第一章 基本句型.docx
- 【地理】2023年云南省昆明市初中学业质量诊断性检测试题(解析版).pdf VIP
- 城市热岛效应.pptx VIP
- 小学科学新教科版一年级下册全册教案(2025春).pptx.doc
- 高教版 职业道德与法治 第四课在工作中做合格建设者.pptx VIP
- 固态法白酒行业深度研究分析报告(2024-2030版).docx
- 2025年高中生物研究性课题研究报告范文.pdf VIP
- 中山大学肿瘤学硕士复试试题.doc
文档评论(0)