在资源受限条件下强化 VLMs 使用工具进行详细视觉推理.pdfVIP

在资源受限条件下强化 VLMs 使用工具进行详细视觉推理.pdf

在资源受限条件下强化VLMs使用工具进行详细视觉推理

1∗1∗11

SunilKumar,BowenZhao,LeoDirac,PaulinaVarshavskaya

1GroundlightAI

911EastPikeAvenue,Suite200

Seattle,WA98122USA

sunil@groundlight.ai,bowen@groundlight.ai

Abstract身仍然代表关于图像的一般信息，并不一定能提供对特

定任务最有帮助的图像感兴趣区域(ROI)的具体细节。

尽管大型模型的推理能力最近取得了巨大进展，视觉语

言模型（VLMs）在详细视觉推理方面仍然面临困难，尤在这篇论文中，我们从通过强化学习（RL）展示大

其是在计算资源有限的情况下。为了解决这一挑战，我型语言模型（LLMs）工具使用的情况中获得灵感，并

本们借鉴了如DeepSeek-R1等方法对VLMs的改进，并将这种方法扩展到多模态VLMs，特别关注有限资源的

译使用组相对策略优化（GRPO）训练规模较小的模型以有效利用。特别是，我们通过GRPO高效训练较小的

利用外部工具，例如缩放功能。最大的收益来自于结合VLMs以适当地调用放大工具来捕捉任务特定ROI在

中GRPO学习、简单的奖励结构、简化的工具调用界面、真实世界图像中的视觉细节。我们也选择了强化学习方

3为工具调用结果分配额外标记以及训练数据混合中过度法，原因在于缺乏带有标注工具使用轨迹的数据，这些

v表示视觉难题样本的方法。与同样大小的基础模型相比，数据可以作为监督微调视觉模型进行详细视觉推理的

1我们的方法在某些视觉问答（VQA）任务上取得了更好

2地面实况。

8的性能，这得益于从外部工具收集的详细视觉信息。我们的贡献如下：

.1介绍•我们提出了一种方法，旨在在资源受限的情况下高

6效地将GRPO扩展到视觉领域的工具使用中。

0近期，视觉语言模型（VLMs）在一系列多模态任

5•我们建立了一组参数，使一个小规模的VLM能够

2务中的性能有了显著提升。然而，尽管最先进的模型

:在资源受限的情况下学习工具使用以理解视觉细节；

v具备卓越的能力，VLMs在处理细粒度的视觉细节方面

i并且我们发现奖励函数的结构和数据混合对成功的

x仍存在明显不足(Rahmanzadehgervietal.2024)。最近

r的研究强调，VLMs经常在需要详细视觉理解的任务中影响显著。

遇到困难，在这些任务中，人类可以轻松解读的细微视•我们展示了实验结果，表明在高分辨率VQA数据集

觉细节被VLMs忽略了(Tongetal.2024)。这一问题上小模型的SOTA有所提升。