治愈还是毒药？嵌入指令在视觉-语言模型中视觉上改变幻觉.pdfVIP

治愈还是毒药？嵌入指令在视觉-语言模型中视觉上改变幻觉.pdf

治愈还是毒药？嵌入指令在视觉-语言模型中视觉上改变幻觉

ZhaochenWang1YiweiWang2YujunCai1

1TheUniversityofQueensland2UniversityofCalifornia,Merced

zhaochen.wang@.au

AbstractOriginalImagePrompt-in-Image

backpack

视觉语言模型（VLMs）常常会遭受幻觉问

题，部分原因是由于多模态信息对齐的挑

战。我们提出了一种名为Prompt-in-Image

的简单方法，该方法将文本指令直接嵌入

到图像中。这消除了对单独文本输入的需Yes,thereisabackpackinthe

No,thereisnobackpackvisibleimage.Itisbeingcarriedbyone

intheimage.oftheindividualswalkinginthe

本求，并迫使模型通过视觉通道处理所有内background.

译容。我们在三个流行的开源VLM上评估Accuracy:80.2%Accuracy:84.3%

中了这种方法：Qwen2.5-VL、LLaVA-1.5和图1:示例的图像中包含提示文本：文本指令直接

1InstructBLIP。结果显示有显著差异。Prompt-嵌入到图像中。使用图像中包含提示文本的方法，

vin-Image提高了Qwen2.5-VL的性能，将Qwen2.5-vl的性能得到提升。

7POPE准确率提升了4.1%（从80.2%提高到

184.3%），并且在MS-COCO上也减少了幻对齐挑战，之前的方法集中在改进跨模态融合

0觉率。相比之下，LLaVA-1.5和InstructBLIP

8.的表现严重下降，准确性从大约84%降至上。然而，与其增强跨模态整合，我们问是否

0接近随机水平。通过详细分析，我们发现可以通过仅依靠单一模态的信息来完全避免跨

2LLaVA和InstructBLIP中基于CLIP的编模态对齐的挑战。

v码器对嵌入文本区域表现出过度的关注偏我们提出了Prompt-in-Image（图1），该方

x差，破坏了视觉理解。相比之下，Qwen的

r法将文本指令直接嵌入图像中。通过迫使模型

a视觉编码器能够稳健地处理带有嵌入文本

通过视觉通道处理所有信息，这种方法可能会

的图像。关键的是，Prompt-in-Image减少

了Qwen的模态差距，通过统一单个模态增强融

更多 >