DeepSeek开启盈利新时代！关注应用、云厂及国产算力、数据库投资机遇.docx

下载文档

0
0
约1.09万字
约 14页
2025-03-16 发布于北京
举报
版权申诉
保障服务

DeepSeek开启盈利新时代！关注应用、云厂及国产算力、数据库投资机遇.docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

内容目录

一、工程优化能力：算力效率跃升，极致发挥Hopper架构性能 3

Day1：FlashMLA-针对Hopper优化的高效多层注意力解码内核 3

Day2：DeepEP-打破分布式训练瓶颈的高效通信库通信库 4

Day3：DeepGEMM-专为FP8矩阵乘法设计的开源库 6

Day4：三项并行优化技术-突破超大规模模型训练效率瓶颈 7

Day5：3FSSmallpond联袂加速数据处理 9

DS开源周四大影响研判 11

二、商业进展盈喜：估测成本利润率达545%，AIInfra价值重估 12

三、新品蓄势待发：R2模型有望于2025年5月前发布 15

投资建议 15

风险提示 15

图表目录

图表1：DeepSeekDay1内容 3

图表2：FlashMLA的意义 3

图表3：FlashMLA应用界面 4

图表4：DeepSeekDay2内容 5

图表5：DeepEP的意义浅析 5

图表6：专家小组分工示意 5

图表7：优化NVLink传输路径 6

图表8：DeepSeekDay3内容 6

图表9：DeepGEMM的意义浅析 6

图表10：DeepGEMM界面 7

图表11：DeepSeekDay4内容 8

图表12：三项策略核心内容 8

图表13：DualPipe介绍 8

图表14：EPLB原理示意 9

图表15：DeepSeekDay5内容 10

图表16：3FS的意义 10

图表17：3FSGithub界面 10

图表18：3FS峰值吞吐量测试 11

图表19：smallpond灰度排序测试 11

图表20：DeepSeekDay6内容 13

图表21：DeepSeek如何实现高效运行 14

图表22：用于推理服务的H800节点数量 14

一、工程优化能力：算力效率跃升，极致发挥Hopper架构性能

2025年2月24日-3月1日为DeepSeek开源周，大模型“开源盛世”将

至。DeepSeek在2025年2月21日宣布以“完全公开透明”的方式开源

5个经过生产验证的代码库，并强调“每一行共享代码都将汇聚成加速AGI

探索的集体动力”。随着各式创新工具的推出，DeepSeek通过优化数据访问效率为行业提供底层支撑，其开源策略不仅缩小了与OpenAI等闭源巨头的技术差距，更掀起国内大模型开源热潮——商汤LazyLLM框架、MiniMax-01系列模型、阶跃星辰多模态大模型相继开源，阿里通义千问、月之暗面Kimi等企业也快速跟进，在长文本理解、文生视频等领域推出高性能开源方案。

中国AI企业从技术追随者迈向开源引领者。开源社区的力量正在重构技术发展逻辑，全球开发者在GitHub等平台协作优化代码，软硬件厂商争相适配开源模型，高校将其纳入人才培养体系，形成从技术创新到产业落地的闭

环。正如杨立昆所言，“开源AI正战胜专有模型”，中国企业已突破“闭源优先”的思维定式，通过开放共享打破技术壁垒，将社区协作转化为创新势能，推动人工智能技术民主化进程迈入新阶段。

Day1：FlashMLA-针对Hopper优化的高效多层注意力解码内核

Day1：FlashMLA解码内核通过优化多层注意力机制，大幅提升大语言模型在长序列处理中的性能，显著降低响应延迟。2月24日开源首日，DeepSeek推出的FlashMLA解码内核基于多层注意力机制（MLA）优化，

专为适配Hopper架构GPU（如H800）的高效计算设计，可显著提升大语言模型在长序列处理中的性能。MLA通过并行化多头计算，使模型同步捕捉文本多位置、多语义层级的信息，从而增强对长距离依赖和复杂语义结构的解析能力。该方案在H800GPU上实测达到3000GB/s内存带宽和580TFLOPS算力，解码效率较传统方案大幅提升，尤其适用于高并发实时生成任务（如对话系统、内容创作），有效解决响应延迟与吞吐量瓶颈，为AI应用的规模化落地提供关键技术支持。

图表1：DeepSeekDay1内容图表2：FlashMLA的意义

来源：DeepSeek官方X，来源：光明网，

同等任务量下可大幅减少Hopper架构GPU服务器需求。FlashMLA通过重构内存带宽利用与并行计算逻辑，突破硬件理论性能上限。实测显示，其

计算速度达行业平均水平的8倍，且内存带宽超H800原生1681GB/s的传输峰值，在同等任务量下可大幅减少Hop