网站大量收购独家精品文档,联系QQ:2885784924

电子行业动态分析:存储板块再迎曙光,DeepSeek加速端侧AI规模化转折点,大厂再现控产.pdf

电子行业动态分析:存储板块再迎曙光,DeepSeek加速端侧AI规模化转折点,大厂再现控产.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

行业动态分析

1、供需:需求侧端侧AI全面开花,供给侧大厂再现控产,存

储板块或再迎曙光

1.1需求:DeepSeek降本增效促AI端侧渗透,催生中小容量/超高

带宽存储

DeepSeek降本增效,加速端侧AI普及。DeepSeek推动训练和推理成本指数级下降,且

大模型蒸馏出的小模型效果提升显著,AI应用的迭代成本下降,边端侧模型可用性明显提高,

降低大模型对边端算力需求门槛、降低应用成本、提升边端大模型性能和准确性,搭载在边缘算

力(边缘机房1-20台服务器、边缘云)、终端(如AI监控摄像头、智能无人机、智能家居、智

能眼镜、智联汽车等)的AI模型及泛AI应用将全面受益,有望加速边缘和端侧AI的普及发展,

催生多元化应用。

表1:DeepSeek核心版本迭代更新

版本原理重要功能特点关键指标提升

将多头查询[Q]分组共享键值[K/V],减奠定基础GQA+多阶训练速度

DeepSeekV1基本沿用LLaMA

少显存占用段训练+20%

在潜在空间压缩注意力头维度[如64维提出DeepSeekMoE效率革命MoE+潜在推理成本

DeepSeekV2

→32维],通过低秩分解减少计算量MLA压缩KV减少缓存注意力-50%

熵最大化路由:约束路由器输出的熵值,

MoE负载均衡优化负载均衡新范式无辅助专家利用率

DeepSeekV3自然分散专家负载br梯度掩码:对过载

引入MTP技术损失均衡+24%

专家暂停梯度更新,促使其“冷却”

动态路由架构:根据输入类型[文本/代码

/数学]自动切换模型分支全能选手动态路由+混综合任务得分

DeepSeekR1冷启动问题的强化学习

混合精度推理:FP16用于注意力计算,合精度+15%

INT4用于FFN层,延迟降低35%

讯云开发者、华金证券研究所

容量/带宽/能耗及散热为本地部署三大难题。边缘设备导入生成式AI时通常会面临以下问

题:(1)存储容量限制:以LLama27B大型语言模型为例,即便在优化至INT8精度时,也至

少需要7GB的内存容量来支撑其运行,而在进一步压缩至INT4精度下,内存需求仍高达

3.5GB。(2)数据传输带宽不足:当前主流AI手机普遍采用LPDDR5内存,其带宽约为

68GB/s。未来虽有LPDDR6预期的150GB/s带宽提升,但可能仍不足以满足高端AI应用的

需求。而HBM虽性能卓越,却因成本与功耗过高,难以在边缘设备中普及应用;(3)能耗和

散热挑战:运行复杂的生成式AI模型相较一般应用会产生大量计算热量。因此,边缘设备需要

设计有效的能

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档