- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DeepSeek对于科技和更广义经济的含义是什么?
我们看到DeepSeek的成本创新正在导致更快的GenAI
产品创新、可用性和应用渗透……随着我们进入推理能力增强的时代,我们的团队讨论了跨半导体、互联网、软件、能源、硬件和非技术领域的应用用户
要点
DeepSeek模型表明,训练GenAI模型的成本将大幅下降。
……我们看到,美国科技巨头仍计划在2025/2026年投入~6500亿美元用于总资本支出,这将推动更快的GenAI产品创新和可用性
不断下降的计算成本和不断上升的使用渗透率应该会推动互联网和软件行业(由GOOGL/META/AMZN/MSFT领导)的GenAIROIC提高
引发了对与出口管制和LLM商品化相关的半成品的担忧,但计算机的历史表明,较低的成本加速了使用和需求
我们还将讨论以下4个议题,包括1)美国LLM领导人的回应
地缘政治影响3)对ASIC芯片未来发展的乐观预期4)蒸馏能力
创新找到了一种方法,使得训练和开发LLM的能力成本得以下降:上周,中国初创公司DeepSeek发布了两款模型(DeepSeek-R1-zero和DeepSeek-R1),探索了LLM在没有任何监督数据的情况下发展推理能力的潜力,重点是自我-
通过纯粹的强化学习过程实现进化。值得注意的是,DeepSeek-R1-zero已经达到了与OpenAI-o1(仅使用训练后强化学习)和成本大大降低定价中反映的推断(见附表4用于定价)。
据称DeepSeek-v3(DeepSeek-R1-zero和DeepSeekR-1的基础模型来源)基于
280万H800GPU小时的计算资源进行了估计560万美元的训练(远低于训练
MetaLlama3405B所需的~30.8百万H100GPU小时)。虽然实际的训练成本仍有待商榷,但这一水平训练和GPU时间成本降低(由多头潜在注意力机制、多头模型
、FP8混合精度训练、GRPO等驱动)将成为推动更快LLM启用和生成式AI产品创新、消费者和企业采用以及生成式AI启用的ROIC和经济生产力提升的重要因素。
更多详情请参阅我们的关于GenAI早期采用和扩散赢家的分析,请参见我们在《人工智能变化率的揭示》中的最新工作。
展品1:我们看到下降的培训/推理成本推动了更快的GenAI
随着我们沿着多年周期前进,我们如何采用和扩散技术
资料来源:公司数据,摩根士丹利研究
性能表示自ChatGPT发布以来截至2025年1月27日的中位数回报率,不包括OpenAI,因为其处于私有状态
附件2:物质性增加的
股票回报率和敞口均存在
表3:各公司在传达其投资和股权故事方面取得了稳步进展
与AI相关
资料来源:Eikon,MSResearch。过往业绩并不代表未来业绩。显示的结果不包括交易成本
资料来源:摩根士丹利研究;AI暴露和重要性映射的3,700只股票的完整excel数据库
对科技的影响:下降的培训/推理成本可能导致更快的创新、可用性和采用
……以及(更大的)推理
机遇在前:我们现在将把注意力转向Internet、软件、半导体、人工智能能源、网络、硬件和体化AI/TSLA等领域的具体见解,以及从这里关注的4个高层次辩论。
半成品:我们不认为迪普斯的成功会改变半导体行业投资计划;也就是说,有许多因素需要考虑。我们
从大量行业消息来源收集到的反馈是一致的,那就是这不会影响GPU扩建计划。
DeepSeek的技术是
令人印象深刻,但并没有利用大型CSP必然投资不足的技术。事实上,我们所看到的许多被认为是突破性的技术,包括FP8中的训练、多令牌预测、MLA、自定义PTX代码和组
相对策略优化(GRPO)强化学习框架,所有数据
回到6个月大的DeepSeekv-2和DeepSeek数学模型或更广泛的人工智能研究文献中
。请参见这里, 在这里f或者举例说明。也就是说,如何实现这些技术非常重要,DeepSeek已经通过所有
账户提供了一个高效的设计。然而,考虑到围绕星门的注水时间,Meta在2025年对
GPU的增量需求,微软的重申
2
他们的800亿美元财政支出上限指导,以及信实在印度的3Gw项目,大部分都是
DeepSeek所做的工作是那些接入模型生态系统的人所知道的。
算法改进的历史表明,我们不应低估低成本、更高级功能和持续扩展所带来的渐进需求。在描述变压器发明的论文中,作者写道:“我们的基础模型超越了所有先前发布的模型……而训练成本却低得多”(此处)。 英伟达表示,他们已经看到了这一点
在过去十年中,算法效率提高了1000倍,超过了单芯片推理性能的提升。在这种情况下,10倍的减少是可能的
当每个模型的训练需求每年增长10倍时,DeepSeek建议的训练计算对LTGR的
您可能关注的文档
最近下载
- Q-CR 562.3-2018-铁路隧道防排水材料 第3部分:防排水板.pdf
- 22G101系列结构图集解读.pptx VIP
- 2025年新《公司法》知识竞赛题库(含答案).doc VIP
- 《苹果供应链管理分析》.ppt VIP
- 《你还在背单词吗》.pdf
- 语文新课标创新教学案例:读中学写,匠心独运之《颐和园》(四下).docx VIP
- 专题18 圆锥曲线选择题【2023高考必备】2013-2022十年全国高考数学真题分类汇编(全国通用版)(原卷版).docx VIP
- 《民法典》合同编实务培训课件.ppt
- 苹果供应链管理分析.ppt VIP
- 《Photoshop-CC图像处理》教学教案—单元2图像处理基础知识.docx VIP
文档评论(0)