通信行业重大事项点评:DeepSeekR1、V3火爆出圈,国产大模型及算力产业链加速成熟.docxVIP

  • 35
  • 0
  • 约8.68千字
  • 约 11页
  • 2025-02-14 发布于广西
  • 举报

通信行业重大事项点评:DeepSeekR1、V3火爆出圈,国产大模型及算力产业链加速成熟.docx

目 录

TOC\o1-2\h\z\u一、DeepSeek发布多款AI模型,性能行业领先且价格优势显著 4

(一)DeepSeek-V3性能比肩GPT-4o等主流开源及闭源模型 5

(二)DeepSeek-R1性能对标OpenAIo1正式版 6

(三)首个多模态大模型Janus-Pro在文字转图像性能上比肩DALL-E3等主流多模态模型 8

二、DeepSeek-V3从训练技术、训练框架等方向进行了优化,降低训练成本 9

图表目录

图表1 DeepSeek发展历程及模型发布 4

图表2 DeepSeek-V3性能比肩GPT-4o等主流开源及闭源模型 5

图表3 DeepSeek-V3性能与主流开源及闭源模型对比 6

图表4 DeepSeek-R1性能对标OpenAIo1正式版 7

图表5 DeepSeek-R1蒸馏小模型超越OpenAIo1-mini 7

图表6 Janus-Pro增强了文本到图像生成的稳定性 8

图表7 DeepSeek-R1API服务定价显著低于OpenAIo1 9

图表8 DeepSeek-V3训练成本(假设H800的租赁价格为$2/GPU小时) 9

图表9 硅基流动×华为云上线基于昇腾云的DeepSeekR1V3推理服务 10

图表10 英伟达、微软、亚马逊等AI巨头纷纷宣布已接入DeepSeek 11

一、DeepSeek发布多款AI模型,性能行业领先且价格优势显著

近期DeepSeek发布多款AI模型,涵盖语言及多模态不同类型,性能表现行业领先。深度求索(DeepSeek)为中国一家人工智能与大型语言模型公司,总部位于中国大陆浙江省杭州市,由中资对冲基金幻方量化创立。2024年12月26日,DeepSeek发布并开源了DeepSeek-V3,评测成绩超越Qwen2.5-72B(阿里自研大模型)和LLaMA3.1-405B(Meta自研大模型)等开源模型,能与GPT-4o、Claude3.5-Sonnet(Anthropic自研大模型)等闭源模型相抗衡。2025年1月20,DeepSeek发布并开源了DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAIo1正式版相当。2025年1月27日,DeepSeek发布多模态大模型Janus-Pro,在文字转图像性能上比肩DALL-E3等主流多模态模型。

图表1 DeepSeek发展历程及模型发布

时间

事件

2023年7月17日

幻方量化成立了DeepSeek。

2023年11月2日

DeepSeek发表开源代码大模型DeepSeek-Coder,这是深度求索的第一个大模型。与之前最好的开源大模型CodeLlama相比,DeepSeekCoder在代码生成任务上(使用标准数据集HumanEval、MBPP

和DS-1000进行评测)分别领先9.3%、10.8%和5.9%。

2023年11月29日

DeepSeek发布通用大语言模型DeepSeek-LLM。相比开源的同级别模型LLaMA270B,DeepSeek

LLM67B在近20个中英文的公开评测榜单上表现更佳。

2024年1月11日

DeepSeek发布DeepSeek-MoE,性能超越Llama2-7B,且计算量降低60%。

2024年2月5日

DeepSeek发布DeepSeekMath,DeepSeekMath在竞赛级MATH基准测试中获取了51.7%的优异成

绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。

2024年3月11日

DeepSeek发布DeepSeek-VL。

2024年5月

DeepSeek发布并开源了旗下MoE大模型DeepSeek-V2,因其模型架构与经济性而脱颖而出,DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4Turbo的百分之

一。DeepSeek解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推

理。

2024年6月17日

DeepSeek发布DeepSeek-Coder-V2,DeepSeek-Cod

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档