网站大量收购独家精品文档,联系QQ:2885784924

DeepSeek缩小中美AI差距,先进芯片制造亟待突破.docx

DeepSeek缩小中美AI差距,先进芯片制造亟待突破.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

DeepSeek的创新启示 3

开源生态愈发繁荣,不断推高能力边界 3

技术、硬件进步共同推动AI模型进步 3

后训练仍处于scalinglaw初期,Deepseek积极追赶 5

美国持续加码AI出口管制,多国限制使用DeepSeek 6

美国密集出台管制措施,聚焦AI芯片和AI模型侧 6

OpenAI调查DeepSeek蒸馏行为,多国限制DeepSeek使用 7

中国AI模型积极进行工程创新,芯片瓶颈亟待突破 7

风险提示 8

DeepSeek的创新启示

开源生态愈发繁荣,不断推高能力边界

2025年1月20日,DeepSeek发布R1模型,能力媲美OpenAIo1模型,开源优势显现。DeepSeek不仅开源了6710亿参数的R1模型,还开源了基于不同参数的qwen和llama架构的几个蒸馏模型。杨立昆表示,“开源代码

正在超越私有模型,DeepSeek从开放研究和开放源码中受益(例如来自Meta的PyTorch和Llama),提出了新想法,并将它们建在其他人的工作之上。”

除DeepSeek外,其他中国AI企业也在积极参与开源的发展。Qwen、MiniMax等开源模型均已是语言领域佼佼者,腾讯混元-Video视频生成模型是目前参数量最大的开源视频生成模型,快手可图文生图模型也已开源。

开源模型正在推动基础模型层降本,有助于推动应用繁荣。开源权重加速了模型价格平民化,给了开发者更多选择,OpenAI的o1每百万输出token要花费60美元,而DeepSeekR1只需2.19美元。面对DeepSeek的竞争,

OpenAI也发布了最新推理模型——o3-mini,并支持免费使用,这是OpenAI首次向ChatGPT的免费用户提供推理模型,并表示会考虑开源。对于开发者来说,开源推动应用开发的成本大幅降低,端侧Agent等场景有望受益,有助于推动应用的繁荣,进而带来AI产业需求增长。

技术、硬件进步共同推动AI模型进步

据AnthropicCEO达里奥·阿莫迪,影响AI系统有三个重要的基本因素:1)拓展定律(scalinglaws),即其他条件相同的情况下,扩大AI训练范围可以全面改善认知任务的效果;2)曲线改变(shiftingthecurve),这主要指模型架构的改进,或是底层硬件上更有效地运行模型的方法。达里奥认为,当前算法进步导致的效率提升可能是每年4倍;3)范式转变(shiftingtheparadigm)。拓展类型在不断增加,2020年至2023年,主要拓展预训练模型,而2024年起,使用强化学习(RL)训练模型,生成思维链的范式已经成为了拓展的新焦点。

提升AI模型训练、推理性价比的方式也对应为提升硬件效率、提升数据质量及范围、改进模型算法、寻找新的拓展范式。

对于Deepseek而言,受限于美国芯片出口禁令,其先进AI芯片资源相对有限。Semianalysis认为,其拥有超5万张的H系列芯片(其中3万张为H20),据《财经十一人》报道,幻方量化拥有1万片以上的A100芯片。与

OpenAI、谷歌、xAI(10万卡H100集群)、Anthropic(亚马逊将与其合作,打造几十万卡Trainium2集群)等海外公司相比,算力资源较少。

DeepseekV3的创新之处在于算力相对有限的情况下,进行了大量工程算法上的创新,提升模型表现,这也顺应了AI成本持续下降的大趋势。其主要创新在于通过无辅助损失的策略、多token预测提升模型能力,通过首次引

入FP8低精度训练、较宽的MoE架构、双管道训练、跨节点alltoall的通信Kernel、优化内存占用等方式提升训练效率,通过MLA(Multiple-headlatentattention,多头注意力)机制来提升推理效率。

图1:MMLU任务得分超过42的大语言模型中,每100万个token处理成本最低的模型

数据来源:Semianalysis

图2:MMLU任务得分超过特定值的大语言模型中,每100万个token处理成本最低的模型

数据来源:Semianalysis

图3:自DeepSeekV3和R1发布以来,AWSH100的GPU定价在许多地区上涨

数据来源:Semianalysis

后训练仍处于scalinglaw初期,Deepseek积极追赶

DeepseekR1模型能取得和OpenAIo1模型相当的性能,重要原因

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档