治愈还是毒药?嵌入指令在视觉-语言模型中视觉上改变幻觉.pdfVIP

  • 1
  • 0
  • 约3.68万字
  • 约 10页
  • 2025-10-11 发布于北京
  • 举报

治愈还是毒药?嵌入指令在视觉-语言模型中视觉上改变幻觉.pdf

治愈还是毒药?嵌入指令在视觉-语言模型中视觉上改变幻觉

ZhaochenWang1YiweiWang2YujunCai1

1TheUniversityofQueensland2UniversityofCalifornia,Merced

zhaochen.wang@.au

AbstractOriginalImagePrompt-in-Image

backpack

视觉语言模型(VLMs)常常会遭受幻觉问

题,部分原因是由于多模态信息对齐的挑

战。我们提出了一种名为Prompt-in-Image

的简单方法,该方法将文本指令直接嵌入

到图像中。这消除了对单独文本输入的需Yes,thereisabackpackinthe

No,thereisnobackpackvisibleimage.Itisbeingcarriedbyone

intheimage.oftheindividualswalkinginthe

本求,并迫使模型通过视觉通道处理所有内background.

译容。我们在三个流行的开源VLM上评估Accuracy:80.2%Accuracy:84.3%

中了这种方法:Qwen2.5-VL、LLaVA-1.5和图1:示例的图像中包含提示文本:文本指令直接

1InstructBLIP。结果显示有显著差异。Prompt-嵌入到图像中。使用图像中包含提示文本的方法,

vin-Image提高了Qwen2.5-VL的性能,将Qwen2.5-vl的性能得到提升。

8

7POPE准确率提升了4.1%(从80.2%提高到

6

184.3%),并且在MS-COCO上也减少了幻对齐挑战,之前的方法集中在改进跨模态融合

0觉率。相比之下,LLaVA-1.5和InstructBLIP

8.的表现严重下降,准确性从大约84%降至上。然而,与其增强跨模态整合,我们问是否

0接近随机水平。通过详细分析,我们发现可以通过仅依靠单一模态的信息来完全避免跨

5

2LLaVA和InstructBLIP中基于CLIP的编模态对齐的挑战。

:

v码器对嵌入文本区域表现出过度的关注偏我们提出了Prompt-in-Image(图1),该方

i

x差,破坏了视觉理解。相比之下,Qwen的

r法将文本指令直接嵌入图像中。通过迫使模型

a视觉编码器能够稳健地处理带有嵌入文本

通过视觉通道处理所有信息,这种方法可能会

的图像。关键的是,Prompt-in-Image减少

了Qwen的模态差距,通过统一单个模态增强融

文档评论(0)

1亿VIP精品文档

相关文档