在资源受限条件下强化 VLMs 使用工具进行详细视觉推理.pdfVIP

  • 0
  • 0
  • 约2.85万字
  • 约 10页
  • 2026-03-12 发布于北京
  • 举报

在资源受限条件下强化 VLMs 使用工具进行详细视觉推理.pdf

在资源受限条件下强化VLMs使用工具进行详细视觉推理

1∗1∗11

SunilKumar,BowenZhao,LeoDirac,PaulinaVarshavskaya

1GroundlightAI

911EastPikeAvenue,Suite200

Seattle,WA98122USA

sunil@groundlight.ai,bowen@groundlight.ai

Abstract身仍然代表关于图像的一般信息,并不一定能提供对特

定任务最有帮助的图像感兴趣区域(ROI)的具体细节。

尽管大型模型的推理能力最近取得了巨大进展,视觉语

言模型(VLMs)在详细视觉推理方面仍然面临困难,尤在这篇论文中,我们从通过强化学习(RL)展示大

其是在计算资源有限的情况下。为了解决这一挑战,我型语言模型(LLMs)工具使用的情况中获得灵感,并

本们借鉴了如DeepSeek-R1等方法对VLMs的改进,并将这种方法扩展到多模态VLMs,特别关注有限资源的

译使用组相对策略优化(GRPO)训练规模较小的模型以有效利用。特别是,我们通过GRPO高效训练较小的

利用外部工具,例如缩放功能。最大的收益来自于结合VLMs以适当地调用放大工具来捕捉任务特定ROI在

中GRPO学习、简单的奖励结构、简化的工具调用界面、真实世界图像中的视觉细节。我们也选择了强化学习方

3为工具调用结果分配额外标记以及训练数据混合中过度法,原因在于缺乏带有标注工具使用轨迹的数据,这些

v表示视觉难题样本的方法。与同样大小的基础模型相比,数据可以作为监督微调视觉模型进行详细视觉推理的

1我们的方法在某些视觉问答(VQA)任务上取得了更好

2地面实况。

8的性能,这得益于从外部工具收集的详细视觉信息。我们的贡献如下:

4

1

.1介绍•我们提出了一种方法,旨在在资源受限的情况下高

6效地将GRPO扩展到视觉领域的工具使用中。

0近期,视觉语言模型(VLMs)在一系列多模态任

5•我们建立了一组参数,使一个小规模的VLM能够

2务中的性能有了显著提升。然而,尽管最先进的模型

:在资源受限的情况下学习工具使用以理解视觉细节;

v具备卓越的能力,VLMs在处理细粒度的视觉细节方面

i并且我们发现奖励函数的结构和数据混合对成功的

x仍存在明显不足(Rahmanzadehgervietal.2024)。最近

r的研究强调,VLMs经常在需要详细视觉理解的任务中影响显著。

a

遇到困难,在这些任务中,人类可以轻松解读的细微视•我们展示了实验结果,表明在高分辨率VQA数据集

觉细节被VLMs忽略了(Tongetal.2024)。这一问题上小模型的SOTA有所提升。

在高分辨率图像输入时进一步加剧(WuandXie

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档