AI动态汇总:DeepSeek-R1带动思维链学,DeepMind推出QuestBench基准.docxVIP

  • 22
  • 0
  • 约1.11万字
  • 约 23页
  • 2025-05-07 发布于新疆
  • 举报

AI动态汇总:DeepSeek-R1带动思维链学,DeepMind推出QuestBench基准.docx

请务必阅读正文之后的免责条款部分

请务必阅读正文之后的免责条款部分

目录

TOC\o1-2\h\z\uAI重点要闻 4

深扒DeepSeek-R1思维链,带动思维链学 4

DeepMind推出QuestBench基准 7

英伟达推出Eagle-2.5、DAM-3B模型 9

国产大模型ViduQ1登顶视频生成榜 13

企业动态 13

OpenAI推出轻量化深度研究工具 13

讯飞星火X1升级,对标DeepSeek-R1 15

昆仑万维开源SkyReels-V2模型 16

AI行业洞察 17

全球首个行动浏览器Fellou发布 17

Meta发布Token-Shuffle,突破自回归瓶颈 18

技术前沿 19

Valuesinthewild:Claude价值观研究 19

模型能力提升:采样越多模型越强 22

风险提示 24

请务必阅读正文之后的免责条款部分

请务必阅读正文之后的免责条款部分

图表目录

图表1:DeepSeek-R1思维链学 4

图表2:DeepSeek-R1训练流程 5

图表3:DeepSeek-R1推理步骤 6

图表4:GSM-Q 7

图表5:Logic-Q 7

图表6:Planning-Q 8

图表7:QuestBench测试结果 9

图表8:Eagle-2.5跑分 10

图表9:DAM-3B框架 12

图表10:VBench 13

图表11:OpenAI官宣 14

图表12:星火X1评测 15

图表13:Token-shuffle架构 19

图表14:Valuesinthewild 20

图表15:Claude价值观分类 21

图表16:实验结果 21

图表17:Sample,ScrutinizeandScale 22

图表18:隐式外扩 23

图表19:新基准下模型表现良莠不齐 23

请务必阅读正文之后的免责条款部分

请务必阅读正文之后的免责条款部分

AI重点要闻

深扒DeepSeek-R1思维链,带动思维链学

魁北克人工智能实验室联合麦吉尔大学、哥本哈根大学等机构,深度剖析了DeepSeek-R1大模型的思维链,从DeepSeek推理的底层构件出发,分析了推理链对其性能的影响。

图表1:DeepSeek-R1思维链学

DeepSeek-R1Thoughtology,

资料来源:研究发现几个关键点:

资料来源:

DeepSeek-R1存在一个“推理甜点区”(sweetspot),即过多推理反而损害性能。

模型倾向于反复沉溺在已探索的方案中,阻碍进一步探索。

相比不具备推理能力的版本,DeepSeek-R1展现出更高的安全风险,这可能对安全对齐的LLM构成挑战。

DeepSeek-R1的训练基于DeepSeek-V3,而下图展示了如何从V3模型训练得到R1模型:

图表2:DeepSeek-R1训练流程

DeepSeek-R1Thoughtology,

资料来源:该训练过程包括了:1)通过GRPO的强化学习训练DeepSeek-R1-Zero模型;2)使用DeepSeek-R1-Zero生成的链式思维(CoT)数据以及其他来源数据进行SFT

资料来源:

(从冷启动开始);3)在以推理为主的数据上再次使用GRPO的强化学习;4)在约60万条推理类样本和20万条非推理样本上进行SFT。需要注意的是,此阶段是从DeepSeek-V3-base模型重新开始训练的;5)在包含安全训练在内的多样化提示分布上,通过GRPO进行强化学习微调。

在研究R1的推理能力之前,可以先回顾一下人类的推理逻辑,人类的推理过程通常包括:

问题定义:首先,需要简化任务中的相关信息,识别出给定条件、已知信息以及需要被推断的未知信息。

初步反应:根据问题的复杂程度,个体可能会借鉴类似问题的解决方法,或是运用启发式策略给出一个即时答案。

规划:面对更难的问题时,通常会采取更具策略性和分析性的思考方法。规划的复杂程度取决于任务的复杂性。

执行与监控:在执行过程中,人们会不断监控自己的进展和信心水平,以决定是否需要调整原计划。监控能力越强,通常任务完成的质量也越高。

请务必阅读正文之后的免责条款部分重构:在解题过程中,个体可能需要调整原有的思路或对世界的假设,以克服由于问题理解错误造成的卡顿。

请务必阅读正文之后的免责条款部分

解答验证:无论是使用启发式还是策略性的方法,在得出答案之后,人类通常会反思自己的思路和结果,确认它是否符合题目的要求。

文档评论(0)

1亿VIP精品文档

相关文档