DeepSeek:重塑全球AI格局的中国力量.pptxVIP

DeepSeek:重塑全球AI格局的中国力量.pptx

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

DeepSeek:

重塑全球AI格局的中国力量

国盛计算机2025.5

顶尖大模型发布进展不断

AI应用:MCP驱动Agent生态加速构建

AI应用:端侧/智驾/机器人/军工等

AI驱动中国科技资产重估

AI基建带动国产算力、云厂商需求

2

目录

3

蒸馏小模型效果超越o1-mini

2024.5DeepSeek-V2发布

提出MLA和DeepSeekMoE架构相比第一代DeepSeek67B实现了更强的性能,节省了42.5%的训练成本,减少了93.3%的KV缓存

2024.11推理模型DeepSeek-R1.Lite预览版发布

媲美01-preview的推理效果并为用户展现了o1没有公开的思考过程

2024.12DeepSeek-V3发布

DeepSeek-V3671B在2048块NVIDIAH800集群上训练2个月,训练成本仅558万美元,达到GPT-4o和ClaudeSonnet3.5水准

2025.1.20DeepSeek-R1发布

从数学(AIME/MATH)、编程(Codeforces/SWE)、学科推理(GPQA)的各个高难度benchmark结果来看,DeepSeek-R1推理能力比肩

OpenAI-o1-1217版本。同时DeepSeek-R1蒸馏得到的Qwen和llama小模型也与OpenAI-o1-mini相当的效果。

2025.1.28Janus-Pro、JanusFlow发布

Janus-Pro是一款统一多模态理解与生成的创新框架,解耦视觉编码。JanusFlow是一款通过生成流与自回归语言模型融合实现统一的框架,能生成高质量图像。

开放的许可证和用户协议:DeepSeek-R1统一采用标准化、宽松的MITLicense,完全开源,不限制商用,无需申请。产品协议明确可“模型蒸馏”。

OpenAI加速发布:

2月1日,OpenAI推出o3-mini,Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。

2月3日,OpenAI发布了基于OpenAI的o3模型之上开发而成的DeepResearch。能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证,直到找到最合适的答案

2月13日,OpenAI宣布将在未来几个月内推出GPT-5,该模型将整合OpenAI的大量技术,包括o3,在GPT-5推出之前,OpenAI计划在未来几周内先发布GPT-4.5代号“Orion”,这将是OpenAI最后一个“非思维链模型

4

美国总统特朗普在佛罗里达表示:“中国公司发布DeepSeekAI应该给我们的行业敲响警钟,我们需要集中精力进行竞争。”

DeepSeek提出大量算法创新,中国从AI跟随者走到前沿探索贡献者

DeepSeek-R1:

DeepSeek-R1-Zero提出不用监督微调直接进行强化学习,也能取得不错的效果。

DeepSeek-R1加入少量CoT数据进行监督微调作为冷启动,然后再进行多阶段强化学习,可以取得更优的性能,同时回答更符合人类偏好。强化学习不需要进行过程监督和MCTS搜索,直接进行基于规则的奖励

DeepSeek-V3:

注意力层状态压缩(Multi-HeadLatentAttention):对attention层隐向量降维,减少推理时显存,提高推理效率

细粒度稀疏MoE架构:671B总参数,平均激活参数37B

多词元前瞻性预测(Multi-TokenPrediction):丰富训练监督信号,加速推理

混合浮点精度运算(FP8Traiming):对训练算子进行细粒度拆分,降低精度损失,首次在超大模型训练中验证FP8的有效性

PTX层优化:在比Cuda底层的编程语言上优化硬件效率

5

字节豆包实时语音大模型情绪理解与表达能力突出。

1月20日豆包实时语音大模型在豆包APP全量开放,在情绪理解和情感表达方面与GPT-4O相比优势明显。豆包团队围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度进行考评。整体满意度(以5分为满分)方面,豆包实时语音大模型评分为4.36,GPT-4o为3.18。其中,50%的测试者对豆包实时语音大模型表现打出满分。在模型优点评测中豆包实时语音大模型在情绪理解和情感表达方面与GPT-4O相比优势明显。尤其是“一听就是AI与否”评测中,超过30%的反馈表示GPT-4o“过于AI”,而豆包实时语音大模型相应比例仅为2%以内。

豆包团队评测语音大模型满意度超过GPT-4o

文档评论(0)

邵宗其 + 关注
实名认证
文档贡献者

信息系统项目管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年07月25日上传了信息系统项目管理师

1亿VIP精品文档

相关文档