网站大量收购闲置独家精品文档,联系QQ:2885784924

从大模型发展角度如何看待 DeepSeek 的突破.docx

从大模型发展角度如何看待 DeepSeek 的突破.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

从大模型发展角度如何看待DeepSeek的突破

by:醒客Thinker

1,强化学习与大模型

强化学习依赖于奖励函数,早期主要用于物理系统的状态训练或者有简单规则约束的游戏中,前者有物理公式后者有明确规则,容易设计奖励函数。粗略区别就是:机器人的下半身,控制机器人状态,一般用强化学习;对于机器人上半身,机械臂的复杂动作,采用了模仿学习。

大模型之后,开始是人工标注训练数据的监督学习,Transformer架构虽然能够采集大小尺度不同的语义(简单说,就是采集从词语、句子、篇章到学科不同尺度的语义结构),但是,语义粒度越大,语义表现的越稀疏,从结果看,基本的Transformer训练,对于语义大尺度的表现效果不好,数学表现欠佳(数学为什么是大尺度后续再说)。

语言大模型中采用强化学习是比较难的,奖励函数不好设计,转折点是,如果利用已经训练好的大模型来制作奖励函数,问题解决了,这就是近期各种技术分析中的PPO(ProximalPolicyOptimization)和GRPO(GroupRelativePolicyOptimization)。

当强化训练的数据集来自于早前大模型的生成,此时强化学习与监督学习的边界正在变得模糊,它是不需要“外部数据”通过“内部奖励规则”实现的强化学习,也是采用“早期模型生成数据”实施的监督学习,强化学习与监督学习正在融合。

小结一下:强化学习在大模型中发挥作用,大模型预训练基础非常重要;强化学习作用在:1,让语义更精确,2,增强大粒度语义的一致性。

2,DeepSeek的R1时刻与OpenAI的ChatGPT时刻

强化学习成为大模型后训练的利器,有其必然性,两年多大模型发展,短板的原因逐渐被摸清,一系列论文铺了路;DeepSeek成为黑马,有其偶然性,算力受限(更好的说法是追求算力效率)导致尝试MoE架构,初生牛犊不怕输,最后赢了。

再回想OpenAI的ChatGPT时刻,Transformer也已经准备好了,为什么是OpenAI而不是Google呢,OpenAI获得大佬们的巨额资金支持,且对失败容忍度高。

当然,这只是事后归因不是证明,技术探索之路没有先知,只有累累骸骨。

3,R1实现“逻辑推理”了吗?

结论:实现了,也没有实现。从使用角度出发,逻辑推理、数学计算变强了很多,说实现了问题不大;说没有实现,从大模型工作上看,依然是大模型的概率计算输出,并没有逻辑什么事儿,只不过,输出的内容中,看的人觉得有逻辑。

思维链在大模型的推理计算中,并不表现为与思维链个数相等的交互步骤,大模型思维链的有效推理依然只有一步,呈现出的多步是为了得到这一步更准确的prompt,思维链的语义表达跨度大,因此,需要底层大模型有更好的线性支撑能力。

如果底层大模型的线性支撑尺度还不够,那么思维链支撑的数学推理依然会出现错误,此时,如果还想要获得准确结果,只能依靠人来分解任务的方式进行多次交互实现,或者,利用Agent代替人的工作来实现,此时,交互次数也同样不等于数学中的步骤,是大模型思维链多次使用。

大模型“理解能力”的表现越来越像人,一方面,人们惊叹于技术已经如此伟大;另一方面,一台普通电脑装个几十G的软件,也就立即变成了“智能人”。人还是那个万物之灵的人,电脑还是之前那台写写文档、玩玩游戏的电脑,是什么填平了沟壑?数十亿人、几千年文明的信息莫非是幻觉,有效的内容不过几十G或者几百G?人或许没那么复杂,也没那么重要,真的不过是宇宙一粒平常的灰尘。

4,R1是逻辑主义、认识论的胜利吗

大模型实现逻辑推理,从使用者角度,是个突变;从大模型工作角度,是很顺滑的进步。如何看待大模型的逻辑推理呢?从实用的角度来说,不管是突变还是顺滑,只要使用者觉得产生了逻辑推理能力,说大模型突破了逻辑推理并没有问题。

很多业内人士会联想到逻辑主义和联结主义斗争的历史,大模型有了逻辑推理能力,会让很多早期逻辑主义的方法重新获得重视。逻辑主义正在融入联结主义,相信能产生新的成果。

不过,这不是逻辑主义在和联结主义三十年的多局斗争中胜了一局,区别明显:从宏观上看,逻辑主义的“逻辑规则”是预设的,联结主义得到的“逻辑规则”是总结的。微观上看,逻辑主义的“逻辑规则”是全局长效的,联结主义得到的“逻辑规则”则是局部瞬变的。

从笛卡尔到希尔伯特的数百年,逻辑被看作一种认知基础,是认识世界的底层单元。大模型产生“逻辑思维”(业内常用涌现来表达),人们可以看到一个新的角度:逻辑不是基础计算,是需要不断事实校验的复杂计算,大模型概率计算才是基础计算。当然,再换一个角度,既然科学让我们告别了

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档