谁将取代DeepSeek——对DeepSeek的冷思考.docVIP

下载本文档

3
0
约8.85千字
约 16页
2025-04-24 发布于辽宁
举报
版权申诉

谁将取代DeepSeek——对DeepSeek的冷思考.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE

PAGE6

谁将取代DeepSeek

——对DeepSeek的冷思考

一、DeepSeek的一般情况

（一）DeepSeek是谁

DeepSeek成立于2023年，公司位于中国杭州，由前对冲基金幻方（High-FlyerQuant）的领导者梁文峰创立。DeepSeek的主要特点是基于开源模型和提供低推理成本的技术。

DeepSeek聚集了一支年轻、技术技能出色的团队，其核心目标是推动通用人工智能（AGI），并以透明和开源的方式进行研究，同时强调通过低成本的技术使先进的人工智能（AI）更容易获取。

（二）DeepSeek的成就

DeepSeek在模型开发上采用了混合专家架构（MoE）等先进算法，这有助于节省显存资源，并提高底层算力的使用效率。这种技术思路在DeepSeek-V2中已经得到验证。

公司通过开源其模型和相关技术，允许更多的AI团队基于这些最先进且成本最低的技术开发新的应用。

DeepSeek-R1是公司推出的一款模型，在短时间内登顶苹果美国区应用商店免费App下载排行榜，并在中国区也取得了领先的位置。

该模型在多个领域（如文本创作、代码生成等）达到了与OpenAI相当的水平，但成本仅为OpenAI模型费用的一小部分。

DeepSeek的突出功能之一是其令人难以置信的非常低的API调用价格，使高级AI更容易访问。例如，DeepSeek-R1的起价每百万输入Token为0.55美元、每百万输出Token为2.19美元，这一价格远低于OpenAI或其他美国AI实验室的产品。

（三）DeepSeek引起的市场轰动

DeepSeek的成功可能会促使OpenAI和其他美国供应商降价以保持现有的领先地位。如果更高效的模型能够以少得多的支出参与竞争，那么人们就会质疑Meta和微软等公司的巨额支出，他们分别承诺在2025年将至少650亿美元主要投入在AI基础设施上这一资本支出。

DeepSeek在全球市场掀起风浪，阿斯麦、英伟达等之前受益于AI服务需求欣欣向荣的股票大跌，而科大讯飞等与DeepSeek相关的中国股票则出现上涨。

1月27日，纳斯达克100指数期货跌幅扩大至5%，标普500指数期货下跌3%。欧洲方面，科技股领跌，芯片设备制造商阿斯麦控股下跌11%，Cboe波动率指数（VI某）走高。如果此番跌势维持，纳斯达克100和欧洲斯托克600科技股指数所蒸发的市值总额将达大约1.2万亿美元。

“DeepSeek的成功显示出开发成本较低的强大AI模型是可能的，”瑞士联合私立银行（UnionBancairePrivee）董事总经理Vey-SernLing表示，“这可能会冲击目前由少数科技巨头高额支出来驱动整个AI供应链的投资逻辑。”

（四）DeepSeek的创新

DeepSeek-V3和DeepSeek-R1都利用了混合专家架构（MoE），该架构仅激活其6710亿个参数中的一个子集。可以把它想象成部署数百名专业的微观专家，在需要他们的技能时介入。这种设计确保了计算效率，同时保持了高模型质量。

DeepSeek采用纯强化学习（RL）方法，进一步使其与众不同。这些模型通过连续的反馈回路自主学习和改进，实现自我校正和适应性，这种机制显著提高了其解决问题的能力，特别是对于需要深入推理和逻辑分析的任务。

除了MoE，多头潜在注意力机制（MLA）提高了模型同时处理多个数据流的能力。通过将焦点分布在几个“注意力”头上，可以更好地识别上下文关系并处理细微的输入，即使在处理单个请求中的数万个Token时也是如此。

（五）用户评价

用户对DeepSeek-R1的高度评价主要集中在其思考过程的细腻性、自洽性和全面性上，它能够提供深度和细节丰富的输出。

一些用户也指出了DeepSeek在某些方面的“用力过猛”，如生成过于复杂的语言或不适当的用词，特别是针对特定受众（如儿童）的内容。

DeepSeek面临的技术挑战包括如何进一步优化模型的性能、降低成本的同时保持高效率，以及克服可能存在的幻觉和偏差问题。

DeepSeek公司正在专注于增强其“DeepThink+Web”搜索的功能，以实现实时在线查找能力。此外，还考虑开发针对特定行业的定制化模型，以及建立全球合作伙伴关系。

二、关于DeepSeek影响的分析

与DeepSeek基本信息相对的，是其所产生的巨大影响。这些影响中有哪些是短期性的，哪些可能是长期性的？

（一）对中美战略竞争的影响：“星际之门”计划

DeepSeek对中美战略竞争的影响，首先表现在对美国“星际之门”计划（theStargateproject）的影响。2025年1月22日，美国总统特朗普在白宫新闻发布会上宣布启动“星际之门”计划。这一计划被称为“21世纪AI时代的‘星球大战’计划”。

“星际之门”计划由软银、OpenAI、

您可能关注的文档

文档评论（0）

张秘书公文 + 关注: 实名认证

文档贡献者

政府机关公文创造者20余年

咨询Ta 进入空间

1亿VIP精品文档

更多 >

谁将取代DeepSeek——对DeepSeek的冷思考.docVIP