网站大量收购闲置独家精品文档,联系QQ:2885784924

详解DeepSeek及其背后的核心技术.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

详解DeepSeek及其背后的核心技术

本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面

分析。

一、关于DeepSeek公司及其大模型

1.1公司概况

DeepSeek2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能

基础技术研究有限公司。

成立时间才一年多、最近推出的V3已经能和OpenAI的4o媲美、训练成本不到600W美

元、API定价仅是国内其他头部厂商几十分之一、APP已经在中美APPstore登上免费应用榜

首;

以上是最近关于DeepSeek的一些新闻热点信息,下面我们从官网看下:

DeepSeek近半年相继推出了3个主要的大模型版本,分别是DeepSeekV2.5、DeepSeek

V3、DeepSeek-R1(无一例外的都是用了MOE架构)。在这之前还推出了DeepSeek-VL、

DeepSeekCoder、DeepSeekMath。

1.2模型能力

DeepSeek模型已经对标国内Qwen、海外Llama、GPT4o,从公布的榜单评测上看:

DeepSeek-V3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。

1.3训推成本

推理成本(API报价):百万Token输入价格能达到1元。

训练成本:从技术报告中看DeepSeek用的是H800的GPU做的训练,而且只有2千张左右的

H800,整个V3的正式训练成本不超过600W美元。

1、预训练阶段,每万亿的Token训练V3使用2048个H800GPU集群,只需要180K个H800GPU小

时,大概3.7天(180000/2048/24)

2、整个预训练总耗时2664KGPU小时(不到2个月),加上上下文扩展和后训练,总耗时大概

2788KGPU耗时。

3、按照H800每小时2美元租赁,总的训练成本不超过600W美元

DeepSeek-V3TechnicalReport

这么低的推理和训练成本不由引出以下的问题:

模型采用了什么样的网络架构?

训练的精度、框架和并行策略是怎样的?

模型的部署和优化方案是怎样的?

在硬件层的计算和通信上做了什么优化?

二、DeepSeek训推核心技术

2.1DeepSeek-V3模型网络架构

DeepSeekV3整体预训练用了14.8万亿的高质量Token,并且在后期做了SFT和RL,模型参数

量达到671B,但是每个Token仅激活37B参数。为了做到高效的推理和训练,DeepSeekV3自研了

MLA注意力机制和无辅助损失负载均衡策略的MoE架构。

从技术报告中看出,是经典的Transformer架构,比较亮眼的就是前馈网络使用的

DeepSeekMoE架构、Attention机制使用MLA架构,其实这两个在DeepSeekV2模型已经被验证

使用过。

与DeepSeek-V2相比,V3额外引入了一种无辅助损失的负载均衡策略,用于

DeepSeekMoE,以减轻因需要保证Expert负载均衡而导致的性能下降。

2.1.1DeepSeekMoE

第一个将MoE架构引入Transformer网络的就是GShard架构了,与传统大模型架构相比,

MoE架构在数据流转过程中集成了一个专家网络层。

可以看出传统的MoE基本两部分组成:Gating门控网络、稀疏MoE层;

●稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”

(例如8个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈网络(FFN),但它

们也可以是更复杂的网络结构,甚至可以是MoE层本身,从而形成层级式的MoE结构。

●门控网络或路由:这个部分用于决定哪些Token被发送到哪个专家。Token的路由方式是MoE使用中的一

个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档