网站大量收购独家精品文档,联系QQ:2885784924

DeepSeek开启盈利新时代!关注应用、云厂及国产算力、数据库投资机遇.docx

DeepSeek开启盈利新时代!关注应用、云厂及国产算力、数据库投资机遇.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

内容目录

一、工程优化能力:算力效率跃升,极致发挥Hopper架构性能 3

Day1:FlashMLA-针对Hopper优化的高效多层注意力解码内核 3

Day2:DeepEP-打破分布式训练瓶颈的高效通信库通信库 4

Day3:DeepGEMM-专为FP8矩阵乘法设计的开源库 6

Day4:三项并行优化技术-突破超大规模模型训练效率瓶颈 7

Day5:3FSSmallpond联袂加速数据处理 9

DS开源周四大影响研判 11

二、商业进展盈喜:估测成本利润率达545%,AIInfra价值重估 12

三、新品蓄势待发:R2模型有望于2025年5月前发布 15

投资建议 15

风险提示 15

图表目录

图表1:DeepSeekDay1内容 3

图表2:FlashMLA的意义 3

图表3:FlashMLA应用界面 4

图表4:DeepSeekDay2内容 5

图表5:DeepEP的意义浅析 5

图表6:专家小组分工示意 5

图表7:优化NVLink传输路径 6

图表8:DeepSeekDay3内容 6

图表9:DeepGEMM的意义浅析 6

图表10:DeepGEMM界面 7

图表11:DeepSeekDay4内容 8

图表12:三项策略核心内容 8

图表13:DualPipe介绍 8

图表14:EPLB原理示意 9

图表15:DeepSeekDay5内容 10

图表16:3FS的意义 10

图表17:3FSGithub界面 10

图表18:3FS峰值吞吐量测试 11

图表19:smallpond灰度排序测试 11

图表20:DeepSeekDay6内容 13

图表21:DeepSeek如何实现高效运行 14

图表22:用于推理服务的H800节点数量 14

一、工程优化能力:算力效率跃升,极致发挥Hopper架构性能

2025年2月24日-3月1日为DeepSeek开源周,大模型“开源盛世”将

至。DeepSeek在2025年2月21日宣布以“完全公开透明”的方式开源

5个经过生产验证的代码库,并强调“每一行共享代码都将汇聚成加速AGI

探索的集体动力”。随着各式创新工具的推出,DeepSeek通过优化数据访问效率为行业提供底层支撑,其开源策略不仅缩小了与OpenAI等闭源巨头的技术差距,更掀起国内大模型开源热潮——商汤LazyLLM框架、MiniMax-01系列模型、阶跃星辰多模态大模型相继开源,阿里通义千问、月之暗面Kimi等企业也快速跟进,在长文本理解、文生视频等领域推出高性能开源方案。

中国AI企业从技术追随者迈向开源引领者。开源社区的力量正在重构技术发展逻辑,全球开发者在GitHub等平台协作优化代码,软硬件厂商争相适配开源模型,高校将其纳入人才培养体系,形成从技术创新到产业落地的闭

环。正如杨立昆所言,“开源AI正战胜专有模型”,中国企业已突破“闭源优先”的思维定式,通过开放共享打破技术壁垒,将社区协作转化为创新势能,推动人工智能技术民主化进程迈入新阶段。

Day1:FlashMLA-针对Hopper优化的高效多层注意力解码内核

Day1:FlashMLA解码内核通过优化多层注意力机制,大幅提升大语言模型在长序列处理中的性能,显著降低响应延迟。2月24日开源首日,DeepSeek推出的FlashMLA解码内核基于多层注意力机制(MLA)优化,

专为适配Hopper架构GPU(如H800)的高效计算设计,可显著提升大语言模型在长序列处理中的性能。MLA通过并行化多头计算,使模型同步捕捉文本多位置、多语义层级的信息,从而增强对长距离依赖和复杂语义结构的解析能力。该方案在H800GPU上实测达到3000GB/s内存带宽和580TFLOPS算力,解码效率较传统方案大幅提升,尤其适用于高并发实时生成任务(如对话系统、内容创作),有效解决响应延迟与吞吐量瓶颈,为AI应用的规模化落地提供关键技术支持。

图表1:DeepSeekDay1内容 图表2:FlashMLA的意义

来源:DeepSeek官方X, 来源:光明网,

同等任务量下可大幅减少Hopper架构GPU服务器需求。FlashMLA通过重构内存带宽利用与并行计算逻辑,突破硬件理论性能上限。实测显示,其

计算速度达行业平均水平的8倍,且内存带宽超H800原生1681GB/s的传输峰值,在同等任务量下可大幅减少Hop

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档