- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
DeepSeek的创新启示 3
开源生态愈发繁荣,不断推高能力边界 3
技术、硬件进步共同推动AI模型进步 3
后训练仍处于scalinglaw初期,Deepseek积极追赶 5
美国持续加码AI出口管制,多国限制使用DeepSeek 6
美国密集出台管制措施,聚焦AI芯片和AI模型侧 6
OpenAI调查DeepSeek蒸馏行为,多国限制DeepSeek使用 7
中国AI模型积极进行工程创新,芯片瓶颈亟待突破 7
风险提示 8
DeepSeek的创新启示
开源生态愈发繁荣,不断推高能力边界
2025年1月20日,DeepSeek发布R1模型,能力媲美OpenAIo1模型,开源优势显现。DeepSeek不仅开源了6710亿参数的R1模型,还开源了基于不同参数的qwen和llama架构的几个蒸馏模型。杨立昆表示,“开源代码
正在超越私有模型,DeepSeek从开放研究和开放源码中受益(例如来自Meta的PyTorch和Llama),提出了新想法,并将它们建在其他人的工作之上。”
除DeepSeek外,其他中国AI企业也在积极参与开源的发展。Qwen、MiniMax等开源模型均已是语言领域佼佼者,腾讯混元-Video视频生成模型是目前参数量最大的开源视频生成模型,快手可图文生图模型也已开源。
开源模型正在推动基础模型层降本,有助于推动应用繁荣。开源权重加速了模型价格平民化,给了开发者更多选择,OpenAI的o1每百万输出token要花费60美元,而DeepSeekR1只需2.19美元。面对DeepSeek的竞争,
OpenAI也发布了最新推理模型——o3-mini,并支持免费使用,这是OpenAI首次向ChatGPT的免费用户提供推理模型,并表示会考虑开源。对于开发者来说,开源推动应用开发的成本大幅降低,端侧Agent等场景有望受益,有助于推动应用的繁荣,进而带来AI产业需求增长。
技术、硬件进步共同推动AI模型进步
据AnthropicCEO达里奥·阿莫迪,影响AI系统有三个重要的基本因素:1)拓展定律(scalinglaws),即其他条件相同的情况下,扩大AI训练范围可以全面改善认知任务的效果;2)曲线改变(shiftingthecurve),这主要指模型架构的改进,或是底层硬件上更有效地运行模型的方法。达里奥认为,当前算法进步导致的效率提升可能是每年4倍;3)范式转变(shiftingtheparadigm)。拓展类型在不断增加,2020年至2023年,主要拓展预训练模型,而2024年起,使用强化学习(RL)训练模型,生成思维链的范式已经成为了拓展的新焦点。
提升AI模型训练、推理性价比的方式也对应为提升硬件效率、提升数据质量及范围、改进模型算法、寻找新的拓展范式。
对于Deepseek而言,受限于美国芯片出口禁令,其先进AI芯片资源相对有限。Semianalysis认为,其拥有超5万张的H系列芯片(其中3万张为H20),据《财经十一人》报道,幻方量化拥有1万片以上的A100芯片。与
OpenAI、谷歌、xAI(10万卡H100集群)、Anthropic(亚马逊将与其合作,打造几十万卡Trainium2集群)等海外公司相比,算力资源较少。
DeepseekV3的创新之处在于算力相对有限的情况下,进行了大量工程算法上的创新,提升模型表现,这也顺应了AI成本持续下降的大趋势。其主要创新在于通过无辅助损失的策略、多token预测提升模型能力,通过首次引
入FP8低精度训练、较宽的MoE架构、双管道训练、跨节点alltoall的通信Kernel、优化内存占用等方式提升训练效率,通过MLA(Multiple-headlatentattention,多头注意力)机制来提升推理效率。
图1:MMLU任务得分超过42的大语言模型中,每100万个token处理成本最低的模型
数据来源:Semianalysis
图2:MMLU任务得分超过特定值的大语言模型中,每100万个token处理成本最低的模型
数据来源:Semianalysis
图3:自DeepSeekV3和R1发布以来,AWSH100的GPU定价在许多地区上涨
数据来源:Semianalysis
后训练仍处于scalinglaw初期,Deepseek积极追赶
DeepseekR1模型能取得和OpenAIo1模型相当的性能,重要原因
您可能关注的文档
- 2月可转债月报:春季躁动之于转债市场的几重理解.docx
- 2月十大金股:二月策略和十大金股.docx
- 2月研判及金股.docx
- 2月转债月报:小盘行情可期,关注AI应用机会.docx
- 4Q2024食品饮料行业基金持仓分析:白酒边际减配,大众品增仓亮眼.docx
- 12月财政数据点评:2024年财政数据的四个反常和启示.docx
- 12月工业企业利润点评:多重因素共振,盈利增速年内新高.docx
- 24Q4基金季报四类基金画像,加仓、减仓、调仓、极致风格.docx
- 24年四季报基金持仓及文本分析:科技共识强化.docx
- 2024Q4房地产行业基金持仓分析:板块基金重仓回落,部分改善型房企获增持.docx
- 2025年梧州医学高等专科学校单招职业技能测试题库及参考答案一套.docx
- 2025年安徽工商职业学院单招职业技能测试题库及答案(最新).docx
- 2025年惠州城市职业学院单招职业技能测试题库及参考答案一套.docx
- 2025年连云港职业技术学院单招职业技能测试题库(真题汇编).docx
- 2025年郑州财税金融职业学院单招职业技能测试题库含答案(满分必刷).docx
- 2025年阳江职业技术学院单招职业技能测试题库(各地真题).docx
- 2025年山东畜牧兽医职业学院单招职业技能测试题库精选.docx
- 2025年江西应用工程职业学院单招职业技能测试题库带答案(基础题).docx
- 2025年怀化职业技术学院单招职业技能测试题库及答案(有一套).docx
- 2025年菏泽职业学院单招职业技能测试题库及答案(历年真题).docx
文档评论(0)