- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DeepSeek对国产芯片的影响
科智咨询云网研究事业部苏长飞
2025年4月
目录
01DeepSeek技术创新
02DeepSeek对国产芯片的影响
03国产芯片面临的挑战和发展机遇
2
DeepSeek出现的影响
DeepSeek的出现标志着我国在生成式AI领域达到世界领先级别
全球APP增长1亿用户所需时间DeepSeek与ChatGPT移动端全球DAU对比情况
数据来源:公开信息©2025科智咨询.Allrightsreserved.3
DeepSeek主要技术创新点
架构创新
•无辅助损失负载平衡的DeepSeekMoE
DeepSeek-V3提出了一种无辅助损失的负载均衡策略(Loss-Free
Balancing),通过动态调整每个专家的偏差来控制负载平衡,而不引入干
扰梯度。减少因鼓励负载均衡而对模型性能产生的负面影响。
•Multi-HeadLatentAttention(MLA)
MLA的核心在于通过低秩联合压缩来减少注意力键(keys)和值(values)
在推理过程中的缓存,从而提高推理效率
数据来源:DeepSeek论文©2025科智咨询.Allrightsreserved.4
DeepSeek主要技术创新点
软硬协同工程优化1/2
•多token预测(Multi-TokenPrediction,MTP)
主流大模型token-by-token生成序列,而每次token生成需要频繁与访存交互,
从而因为访存效率形成训练或推理的瓶颈。MTP方法主要将单token的生成,转
变成多token的生成,提升训练和推理的性能。DeepSeek主要对传统MTP算法
进行了一定优化,顺序预测额外token,并在每个预测深度保持完整的因果链。
•FP8混合精度训练框架
在DeepSeek的训练过程中,绝大多数核心计算核(即通用矩阵乘法GEMM操
作)均以FP8精度实现。这些GEMM操作接受FP8张量作为输入,并输出BF16
或FP32格式的结果。如下图所示,与线性算子(Linearoperator)相关的三个
GEMM运算——前向传播(Fprop)、激活梯度反向传播(Dgrad)和权重梯
度反向传播(Wgrad)——都采用FP8精度执行。
对以下模块维持原有精度(如BF16或F
您可能关注的文档
- 吉图咨询:2025广东省一季度汽车市场分析报告.pdf
- 吉图咨询:2025广州市一季度汽车市场分析报告.pdf
- 吉图咨询:2025重庆市一季度汽车市场分析报告.pdf
- 团结香港基金会:香港房屋趋势导航2025(繁体版).pdf
- Keep:2024年环境、社会和管治(ESG)报告.pdf
- LinkedIn(戴嘉婧):LinkedIn在AGI领域的应用.pdf
- TCL科技集团:2024TCL科技环境、社会及治理报告.pdf
- vivo(杨振涛):冉冉升起的平台工程真的能带来10x效能提升吗?.pdf
- 贝壳(贾琳):当我们用AI写了100万行代码.pdf
- 华农财险(李翔):华农财险全流程数字化研发管理实践.pdf
- 联通软件研究院(乔柏):数字原生体系下的企业架构治理:中国联通系统架构数字化管理最佳实践.pdf
- 麦当劳(程清):麦当劳DevOps平台工程实践.pdf
- 平安(朱海昆):业务与技术的融合:奇瑞汽金企业架构实践探索.pdf
- 汽车之家(李航宇):破除知见障——大模型时代AI算法人才成长的思考.pdf
- 去哪儿(郑吉敏):基于日常管理的团队文化与成长.pdf
- 同程(陶璿):产品创新:大模型在用户产品中的应用.pdf
- 网易(孟祥勇):中间件同城多云高可用平台建设.pdf
- 字节跳动(金雅谊):字节跳动技术Leader数字化研发管理案例.pdf
- 字节跳动:2025年GPU Scale-up 互联技术白皮书.pdf
- 58(丽媛):58智能画像运营平台.pdf
最近下载
- 时间域激电中梯、测深作业指导书.pdf VIP
- 2025年水利工程监理工作报告.pdf VIP
- 激电中梯、激电测深工作概要.pptx VIP
- 药物分析与常用组学技术在药学服务中的应用题库答案-2025年华医网继续教育.docx VIP
- 2025年杭州临安区公开招聘专职社区工作者和两新专职党务工作者35人笔试参考题库附答案解析.docx VIP
- 蒸馏法海水淡化阻垢剂性能评价方法 动态模拟试验法 编制说明.pdf VIP
- 无障碍设计PPT课件.ppt VIP
- CTD格式申报资料(原料药)新.pdf VIP
- 中小学心理健康教育指导纲要考试试题及答案.docx VIP
- 《无障碍设计原则》课件.ppt VIP
文档评论(0)