AI动态汇总：DeepSeek-R1带动思维链学，DeepMind推出QuestBench基准.docxVIP

下载本文档

22
0
约1.11万字
约 23页
2025-05-07 发布于新疆
举报

AI动态汇总：DeepSeek-R1带动思维链学，DeepMind推出QuestBench基准.docx

请务必阅读正文之后的免责条款部分

TOC\o1-2\h\z\uAI重点要闻 4

深扒DeepSeek-R1思维链，带动思维链学 4

DeepMind推出QuestBench基准 7

英伟达推出Eagle-2.5、DAM-3B模型 9

国产大模型ViduQ1登顶视频生成榜 13

企业动态 13

OpenAI推出轻量化深度研究工具 13

讯飞星火X1升级，对标DeepSeek-R1 15

昆仑万维开源SkyReels-V2模型 16

AI行业洞察 17

全球首个行动浏览器Fellou发布 17

Meta发布Token-Shuffle，突破自回归瓶颈 18

技术前沿 19

Valuesinthewild:Claude价值观研究 19

模型能力提升：采样越多模型越强 22

风险提示 24

请务必阅读正文之后的免责条款部分

图表目录

图表1：DeepSeek-R1思维链学 4

图表2：DeepSeek-R1训练流程 5

图表3：DeepSeek-R1推理步骤 6

图表4：GSM-Q 7

图表5：Logic-Q 7

图表6：Planning-Q 8

图表7：QuestBench测试结果 9

图表8：Eagle-2.5跑分 10

图表9：DAM-3B框架 12

图表10：VBench 13

图表11：OpenAI官宣 14

图表12：星火X1评测 15

图表13：Token-shuffle架构 19

图表14：Valuesinthewild 20

图表15：Claude价值观分类 21

图表16：实验结果 21

图表17：Sample,ScrutinizeandScale 22

图表18：隐式外扩 23

图表19：新基准下模型表现良莠不齐 23

请务必阅读正文之后的免责条款部分

AI重点要闻

深扒DeepSeek-R1思维链，带动思维链学

魁北克人工智能实验室联合麦吉尔大学、哥本哈根大学等机构，深度剖析了DeepSeek-R1大模型的思维链，从DeepSeek推理的底层构件出发，分析了推理链对其性能的影响。

图表1：DeepSeek-R1思维链学

DeepSeek-R1Thoughtology，

资料来源：研究发现几个关键点：

资料来源：

DeepSeek-R1存在一个“推理甜点区”（sweetspot），即过多推理反而损害性能。

模型倾向于反复沉溺在已探索的方案中，阻碍进一步探索。

相比不具备推理能力的版本，DeepSeek-R1展现出更高的安全风险，这可能对安全对齐的LLM构成挑战。

DeepSeek-R1的训练基于DeepSeek-V3，而下图展示了如何从V3模型训练得到R1模型：

图表2：DeepSeek-R1训练流程

DeepSeek-R1Thoughtology，

资料来源：该训练过程包括了：1）通过GRPO的强化学习训练DeepSeek-R1-Zero模型；2）使用DeepSeek-R1-Zero生成的链式思维（CoT）数据以及其他来源数据进行SFT

资料来源：

（从冷启动开始）；3）在以推理为主的数据上再次使用GRPO的强化学习；4）在约60万条推理类样本和20万条非推理样本上进行SFT。需要注意的是，此阶段是从DeepSeek-V3-base模型重新开始训练的；5）在包含安全训练在内的多样化提示分布上，通过GRPO进行强化学习微调。

在研究R1的推理能力之前，可以先回顾一下人类的推理逻辑，人类的推理过程通常包括：

问题定义：首先，需要简化任务中的相关信息，识别出给定条件、已知信息以及需要被推断的未知信息。

初步反应：根据问题的复杂程度，个体可能会借鉴类似问题的解决方法，或是运用启发式策略给出一个即时答案。

规划：面对更难的问题时，通常会采取更具策略性和分析性的思考方法。规划的复杂程度取决于任务的复杂性。

执行与监控：在执行过程中，人们会不断监控自己的进展和信心水平，以决定是否需要调整原计划。监控能力越强，通常任务完成的质量也越高。

请务必阅读正文之后的免责条款部分重构：在解题过程中，个体可能需要调整原有的思路或对世界的假设，以克服由于问题理解错误造成的卡顿。

请务必阅读正文之后的免责条款部分

解答验证：无论是使用启发式还是策略性的方法，在得出答案之后，人类通常会反思自己的思路和结果，确认它是否符合题目的要求。

AI动态汇总：DeepSeek-R1带动思维链学，DeepMind推出QuestBench基准.docxVIP

AI动态汇总：DeepSeek-R1带动思维链学，DeepMind推出QuestBench基准.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档