DeepSeek缩小中美AI差距，先进芯片制造亟待突破.docx

下载文档

38
0
约5.21千字
约 8页
2025-02-12 发布于北京
举报
版权申诉
保障服务

DeepSeek缩小中美AI差距，先进芯片制造亟待突破.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek的创新启示 3

开源生态愈发繁荣，不断推高能力边界 3

技术、硬件进步共同推动AI模型进步 3

后训练仍处于scalinglaw初期，Deepseek积极追赶 5

美国持续加码AI出口管制，多国限制使用DeepSeek 6

美国密集出台管制措施，聚焦AI芯片和AI模型侧 6

OpenAI调查DeepSeek蒸馏行为，多国限制DeepSeek使用 7

中国AI模型积极进行工程创新，芯片瓶颈亟待突破 7

风险提示 8

DeepSeek的创新启示

开源生态愈发繁荣，不断推高能力边界

2025年1月20日，DeepSeek发布R1模型，能力媲美OpenAIo1模型，开源优势显现。DeepSeek不仅开源了6710亿参数的R1模型，还开源了基于不同参数的qwen和llama架构的几个蒸馏模型。杨立昆表示，“开源代码

正在超越私有模型，DeepSeek从开放研究和开放源码中受益（例如来自Meta的PyTorch和Llama），提出了新想法，并将它们建在其他人的工作之上。”

除DeepSeek外，其他中国AI企业也在积极参与开源的发展。Qwen、MiniMax等开源模型均已是语言领域佼佼者，腾讯混元-Video视频生成模型是目前参数量最大的开源视频生成模型，快手可图文生图模型也已开源。

开源模型正在推动基础模型层降本，有助于推动应用繁荣。开源权重加速了模型价格平民化，给了开发者更多选择，OpenAI的o1每百万输出token要花费60美元，而DeepSeekR1只需2.19美元。面对DeepSeek的竞争，

OpenAI也发布了最新推理模型——o3-mini，并支持免费使用，这是OpenAI首次向ChatGPT的免费用户提供推理模型，并表示会考虑开源。对于开发者来说，开源推动应用开发的成本大幅降低，端侧Agent等场景有望受益，有助于推动应用的繁荣，进而带来AI产业需求增长。

技术、硬件进步共同推动AI模型进步

据AnthropicCEO达里奥·阿莫迪，影响AI系统有三个重要的基本因素：1）拓展定律（scalinglaws），即其他条件相同的情况下，扩大AI训练范围可以全面改善认知任务的效果；2）曲线改变（shiftingthecurve），这主要指模型架构的改进，或是底层硬件上更有效地运行模型的方法。达里奥认为，当前算法进步导致的效率提升可能是每年4倍；3）范式转变（shiftingtheparadigm）。拓展类型在不断增加，2020年至2023年，主要拓展预训练模型，而2024年起，使用强化学习（RL）训练模型，生成思维链的范式已经成为了拓展的新焦点。

提升AI模型训练、推理性价比的方式也对应为提升硬件效率、提升数据质量及范围、改进模型算法、寻找新的拓展范式。

对于Deepseek而言，受限于美国芯片出口禁令，其先进AI芯片资源相对有限。Semianalysis认为，其拥有超5万张的H系列芯片（其中3万张为H20），据《财经十一人》报道，幻方量化拥有1万片以上的A100芯片。与

OpenAI、谷歌、xAI（10万卡H100集群）、Anthropic（亚马逊将与其合作，打造几十万卡Trainium2集群）等海外公司相比，算力资源较少。

DeepseekV3的创新之处在于算力相对有限的情况下，进行了大量工程算法上的创新，提升模型表现，这也顺应了AI成本持续下降的大趋势。其主要创新在于通过无辅助损失的策略、多token预测提升模型能力，通过首次引

入FP8低精度训练、较宽的MoE架构、双管道训练、跨节点alltoall的通信Kernel、优化内存占用等方式提升训练效率，通过MLA（Multiple-headlatentattention，多头注意力）机制来提升推理效率。

图1：MMLU任务得分超过42的大语言模型中，每100万个token处理成本最低的模型

数据来源：Semianalysis

图2：MMLU任务得分超过特定值的大语言模型中，每100万个token处理成本最低的模型

数据来源：Semianalysis

图3：自DeepSeekV3和R1发布以来，AWSH100的GPU定价在许多地区上涨

数据来源：Semianalysis

后训练仍处于scalinglaw初期，Deepseek积极追赶

DeepseekR1模型能取得和OpenAIo1模型相当的性能，重要原因

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

DeepSeek缩小中美AI差距，先进芯片制造亟待突破.docx