CoT-Vid: 带有自验证的动态思维链路由用于无训练视频推理.pdfVIP

CoT-Vid: 带有自验证的动态思维链路由用于无训练视频推理.pdf

CoT-Vid:带有自验证的动态思维链路由用于无训练视频推理

∗∗∗†

HongobJin,RuyangLiu,WenhaoZhang,GuiboLuo,GeLi

SchoolofElectronicandComputerEngineering

PekingUniversity

{hbjin25,ruyang,whzhang25}@,{luogb,GeLi}@

Abstract推断或逻辑推理）上表现不佳。正如(Gaoetal.2025)

所揭示的，当前的视频LLMs经常产生幻觉问题，可能

System2推理最近随着Deep-ThinkingModels和链式

是因为无效推理脱离了视觉感知。一些最近的研究探

思维技术的出现而迅速发展，已成为人工智能社区的一

索了使用grpo相关技术使视频LLMs遵循慢思考的形

个集中讨论点。然而，在复杂的视频推理研究方面目前

存在相对的差距。在本工作中，我们提出了Cot-维德，这式，比如Video-R1(Fengetal.2025)，VideoChat-R1(Li

本是一种针对视频领域的新型无训练范式，具有多阶段复etal.2025c)，Tiny-Video-R1(Zhangetal.2025c)。尽

译杂推理设计。与现有的依赖于感知能力的视频LLM相管它们增强了模型输出中的长链分布，与基线模型相比

中比，它通过明确的推理机制实现了惊人的性能提升。该最终结果的改进仍然非常有限。

范式主要由三个组成部分：动态推断路径路由、问题解基于上述发现，并受到人类认知过程(Evans2003)

2耦策略和视频自我一致性验证。此外，我们还提出了一个

v新的视频问题分类标准。CoT-Vid在各种基准测试中表的启发，我们推断复杂的视频推理需要解决三个关键

0点：准确理解问题的语义，关注与问题相关的视觉内容

3现突出，并在Egochema上比其基础模型高出9.3%，在

8VideoEspresso上高出5.6%，与更大且专有的模型（如以及有效激发大语言模型的内在推理能力。首先，为了

1GPT-4V、GPT-4o和Gemini-1.5-flash）相抗衡甚至超更好地解决问题，我们需要对问题本身有准确的理解。

1.越它们。我们的代码库将很快公开。大多数现有方法在这方面还不够充分。它们为不同的问

5题使用相同的过程管道，这显然违背了人类思维过程

5的直觉。其次，深入推理需要准确把握视觉感知信息。

介绍

2现有的视频大语言模型经常出现幻觉问题(Gaoetal.

v近期，系统2推理方面的进展，特别是在预训练和2025)，表现为生成与视频内容无关的文字推理。第三，

x链式思维相关技术的推动下，已经彻底改变了复杂推最近的研究表明，大语言模型具有足够的内在推理能