计算机行业深度报告：DeepSeek火爆全球，AI生态加速繁荣.docx

下载文档

0
0
约7.49千字
约 12页
2025-02-28 发布于北京
举报
版权申诉
保障服务

计算机行业深度报告：DeepSeek火爆全球，AI生态加速繁荣.docx

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1、DeepSeek模型技术惊艳，用户飙升 3

2、海内外云厂商和应用公司争相上线，国产AI前景可期 8

3、投资建议 10

4、风险提示 11

图表目录

图1：DeepSeek-R1性能对齐OpenAI-o1正式版 3

图2：蒸馏小模型超越OpenAIo1-mini 3

图3：DeepSeekR1模型价格远低于o1系列模型 5

图4：DeepSeek成为全球增速最快的AI应用之一 5

图5：DeepSeek7天用户破亿 6

图6：DeepSeek成史上最快突破3000万日活APP 7

图7：DeepSeek暂停API服务充值 7

图8：多家海外科技巨头宣布接入DeepSeek-R1 8

图9：国内多家云厂商上线DeepSeek 9

图10：多款国产AI芯片适配DeepSeek 10

表1：DeepSeek-R1通过强化学习和冷启动数据，显著提升模型的推理能力 4

表2：受益标的盈利预测和估值 11

1、DeepSeek模型技术惊艳，用户飙升

DeepSeek-R1性能对齐OpenAI-o1正式版。1月20日，DeepSeek-R1正式发布，并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有较少标注数据的情况下，较大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAIo1正式版。

图1：DeepSeek-R1性能对齐OpenAI-o1正式版

DeepSeek公众号

蒸馏小模型超越OpenAIo1-mini。在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时，通过DeepSeek-R1的输出，蒸馏了6个小模型开源给社区，其中32B和70B模型在多项能力上实现了对标OpenAIo1-mini的效果。

图2：蒸馏小模型超越OpenAIo1-mini

DeepSeek公众号

DeepSeek-R1通过强化学习和冷启动数据，显著提升模型的推理能力。DeepSeekLLM通过扩展模型规模和引入多阶段训练，提升了模型在多个领域的表现。DeepSeek-V2引入MoE架构，通过MLA和DeepSeekMoE实现高效推理和经济训练。DeepSeek-V3进一步扩展模型规模，引入多令牌预测和无辅助损失的负载均衡策略，实现了更高的性能和更低的训练成本。DeepSeek-R1通过强化学习和冷启动数据，显著提升了模型的推理能力，并通过蒸馏技术将推理能力扩展到小型模型。

R1-Zero不依赖人类专家标注（SFT），仅使用强化学习（RL）。R1-Zero直接将强化学习应用于基础模型，使得模型能够使用思维链（CoT）来解决复杂问题，模型也展现了自我验证、反思和生成长思维链等能力。这是业界首个公开研究证明了无需使用SFT，仅仅通过RL就可以显著增强LLM的推理能力，是Reasoning领域的里程碑性工作。

版本技术特点主要贡献数据集性能与效率其他表1：DeepSeek-R1通过强化学习和冷启动数据，显著提升模型的推理能力

版本技术特点主要贡献数据集性能与效率其他

DeepSeekLLM

开源大语言模型，采用7B和67B

两种配置；

使用2万亿token数据集；引入多阶段训练和强化学习；

通过直接偏好优化提升对话性能

提出扩展开源语言模型的规模；通过研究扩展规律指导模型扩展，在代码、数学和推理领域表现优异；

提供丰富的预训练数据和多样化的训练信号

2万亿

token

（主要在英语和中文）

在多个基准测试中优于LLaMA-270B，在中文和英文开放式评估中表现优异

强调长期主义和开源精神，强调模型在不同领域表现优异的泛化能力

采用Mixture-of-Experts（MoE）架构，支持128K上下文长度；采用Multi-headLatentAttention

提出高效的MoE架构用于推理和训练；

通过MLA和DeepSeekMoE实现

在多个基准测试

8.1万亿中表现优异，相

token（扩比DeepSeek67B

强调模型的高效性和经济性，提供多

DeepSeek-V2

(MLA)和DeepSeekMoE；

提出辅助损失自由负载均衡策略；

通过FP8训练提高训练效率

高效推理和经济训练；

在推理吞吐量和生成速度上有显著提升

展到更多

中文数据）

节省42.5%的训

练成本，提高最大生成吞

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

计算机行业深度报告：DeepSeek火爆全球，AI生态加速繁荣.docx