从大模型发展角度如何看待 DeepSeek 的突破.docx

下载文档

0
0
约4.85千字
约 7页
2025-02-09 发布于山西
举报
版权申诉
保障服务

从大模型发展角度如何看待 DeepSeek 的突破.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

从大模型发展角度如何看待DeepSeek的突破

by：醒客Thinker

1，强化学习与大模型

强化学习依赖于奖励函数，早期主要用于物理系统的状态训练或者有简单规则约束的游戏中，前者有物理公式后者有明确规则，容易设计奖励函数。粗略区别就是：机器人的下半身，控制机器人状态，一般用强化学习；对于机器人上半身，机械臂的复杂动作，采用了模仿学习。

大模型之后，开始是人工标注训练数据的监督学习，Transformer架构虽然能够采集大小尺度不同的语义（简单说，就是采集从词语、句子、篇章到学科不同尺度的语义结构），但是，语义粒度越大，语义表现的越稀疏，从结果看，基本的Transformer训练，对于语义大尺度的表现效果不好，数学表现欠佳（数学为什么是大尺度后续再说）。

语言大模型中采用强化学习是比较难的，奖励函数不好设计，转折点是，如果利用已经训练好的大模型来制作奖励函数，问题解决了，这就是近期各种技术分析中的PPO（ProximalPolicyOptimization）和GRPO（GroupRelativePolicyOptimization）。

当强化训练的数据集来自于早前大模型的生成，此时强化学习与监督学习的边界正在变得模糊，它是不需要“外部数据”通过“内部奖励规则”实现的强化学习，也是采用“早期模型生成数据”实施的监督学习，强化学习与监督学习正在融合。

小结一下：强化学习在大模型中发挥作用，大模型预训练基础非常重要；强化学习作用在：1，让语义更精确，2，增强大粒度语义的一致性。

2，DeepSeek的R1时刻与OpenAI的ChatGPT时刻

强化学习成为大模型后训练的利器，有其必然性，两年多大模型发展，短板的原因逐渐被摸清，一系列论文铺了路；DeepSeek成为黑马，有其偶然性，算力受限（更好的说法是追求算力效率）导致尝试MoE架构，初生牛犊不怕输，最后赢了。

再回想OpenAI的ChatGPT时刻，Transformer也已经准备好了，为什么是OpenAI而不是Google呢，OpenAI获得大佬们的巨额资金支持，且对失败容忍度高。

当然，这只是事后归因不是证明，技术探索之路没有先知，只有累累骸骨。

3，R1实现“逻辑推理”了吗？

结论：实现了，也没有实现。从使用角度出发，逻辑推理、数学计算变强了很多，说实现了问题不大；说没有实现，从大模型工作上看，依然是大模型的概率计算输出，并没有逻辑什么事儿，只不过，输出的内容中，看的人觉得有逻辑。

思维链在大模型的推理计算中，并不表现为与思维链个数相等的交互步骤，大模型思维链的有效推理依然只有一步，呈现出的多步是为了得到这一步更准确的prompt，思维链的语义表达跨度大，因此，需要底层大模型有更好的线性支撑能力。

如果底层大模型的线性支撑尺度还不够，那么思维链支撑的数学推理依然会出现错误，此时，如果还想要获得准确结果，只能依靠人来分解任务的方式进行多次交互实现，或者，利用Agent代替人的工作来实现，此时，交互次数也同样不等于数学中的步骤，是大模型思维链多次使用。

大模型“理解能力”的表现越来越像人，一方面，人们惊叹于技术已经如此伟大；另一方面，一台普通电脑装个几十G的软件，也就立即变成了“智能人”。人还是那个万物之灵的人，电脑还是之前那台写写文档、玩玩游戏的电脑，是什么填平了沟壑？数十亿人、几千年文明的信息莫非是幻觉，有效的内容不过几十G或者几百G？人或许没那么复杂，也没那么重要，真的不过是宇宙一粒平常的灰尘。

4，R1是逻辑主义、认识论的胜利吗

大模型实现逻辑推理，从使用者角度，是个突变；从大模型工作角度，是很顺滑的进步。如何看待大模型的逻辑推理呢？从实用的角度来说，不管是突变还是顺滑，只要使用者觉得产生了逻辑推理能力，说大模型突破了逻辑推理并没有问题。

很多业内人士会联想到逻辑主义和联结主义斗争的历史，大模型有了逻辑推理能力，会让很多早期逻辑主义的方法重新获得重视。逻辑主义正在融入联结主义，相信能产生新的成果。

不过，这不是逻辑主义在和联结主义三十年的多局斗争中胜了一局，区别明显：从宏观上看，逻辑主义的“逻辑规则”是预设的，联结主义得到的“逻辑规则”是总结的。微观上看，逻辑主义的“逻辑规则”是全局长效的，联结主义得到的“逻辑规则”则是局部瞬变的。

从笛卡尔到希尔伯特的数百年，逻辑被看作一种认知基础，是认识世界的底层单元。大模型产生“逻辑思维”（业内常用涌现来表达），人们可以看到一个新的角度：逻辑不是基础计算，是需要不断事实校验的复杂计算，大模型概率计算才是基础计算。当然，再换一个角度，既然科学让我们告别了

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1396人已咨询）已休息

1亿VIP精品文档

更多 >

从大模型发展角度如何看待 DeepSeek 的突破.docx