- 0
- 0
- 约3.57万字
- 约 11页
- 2026-03-09 发布于北京
- 举报
CoT-Vid:带有自验证的动态思维链路由用于无训练视频推理
∗∗∗†
HongobJin,RuyangLiu,WenhaoZhang,GuiboLuo,GeLi
SchoolofElectronicandComputerEngineering
PekingUniversity
{hbjin25,ruyang,whzhang25}@,{luogb,GeLi}@
Abstract推断或逻辑推理)上表现不佳。正如(Gaoetal.2025)
所揭示的,当前的视频LLMs经常产生幻觉问题,可能
System2推理最近随着Deep-ThinkingModels和链式
是因为无效推理脱离了视觉感知。一些最近的研究探
思维技术的出现而迅速发展,已成为人工智能社区的一
索了使用grpo相关技术使视频LLMs遵循慢思考的形
个集中讨论点。然而,在复杂的视频推理研究方面目前
存在相对的差距。在本工作中,我们提出了Cot-维德,这式,比如Video-R1(Fengetal.2025),VideoChat-R1(Li
本是一种针对视频领域的新型无训练范式,具有多阶段复etal.2025c),Tiny-Video-R1(Zhangetal.2025c)。尽
译杂推理设计。与现有的依赖于感知能力的视频LLM相管它们增强了模型输出中的长链分布,与基线模型相比
中比,它通过明确的推理机制实现了惊人的性能提升。该最终结果的改进仍然非常有限。
范式主要由三个组成部分:动态推断路径路由、问题解基于上述发现,并受到人类认知过程(Evans2003)
2耦策略和视频自我一致性验证。此外,我们还提出了一个
v新的视频问题分类标准。CoT-Vid在各种基准测试中表的启发,我们推断复杂的视频推理需要解决三个关键
0点:准确理解问题的语义,关注与问题相关的视觉内容
3现突出,并在Egochema上比其基础模型高出9.3%,在
8VideoEspresso上高出5.6%,与更大且专有的模型(如以及有效激发大语言模型的内在推理能力。首先,为了
1GPT-4V、GPT-4o和Gemini-1.5-flash)相抗衡甚至超更好地解决问题,我们需要对问题本身有准确的理解。
1.越它们。我们的代码库将很快公开。大多数现有方法在这方面还不够充分。它们为不同的问
5题使用相同的过程管道,这显然违背了人类思维过程
0
5的直觉。其次,深入推理需要准确把握视觉感知信息。
介绍
2现有的视频大语言模型经常出现幻觉问题(Gaoetal.
:
v近期,系统2推理方面的进展,特别是在预训练和2025),表现为生成与视频内容无关的文字推理。第三,
i
x链式思维相关技术的推动下,已经彻底改变了复杂推最近的研究表明,大语言模型具有足够的内在推理能
r理任务,尤其是在基于文本的场景中。(Lietal.202
原创力文档

文档评论(0)