- 1
- 0
- 约3.68万字
- 约 10页
- 2025-10-11 发布于北京
- 举报
治愈还是毒药?嵌入指令在视觉-语言模型中视觉上改变幻觉
ZhaochenWang1YiweiWang2YujunCai1
1TheUniversityofQueensland2UniversityofCalifornia,Merced
zhaochen.wang@.au
AbstractOriginalImagePrompt-in-Image
backpack
视觉语言模型(VLMs)常常会遭受幻觉问
题,部分原因是由于多模态信息对齐的挑
战。我们提出了一种名为Prompt-in-Image
的简单方法,该方法将文本指令直接嵌入
到图像中。这消除了对单独文本输入的需Yes,thereisabackpackinthe
No,thereisnobackpackvisibleimage.Itisbeingcarriedbyone
intheimage.oftheindividualswalkinginthe
本求,并迫使模型通过视觉通道处理所有内background.
译容。我们在三个流行的开源VLM上评估Accuracy:80.2%Accuracy:84.3%
中了这种方法:Qwen2.5-VL、LLaVA-1.5和图1:示例的图像中包含提示文本:文本指令直接
1InstructBLIP。结果显示有显著差异。Prompt-嵌入到图像中。使用图像中包含提示文本的方法,
vin-Image提高了Qwen2.5-VL的性能,将Qwen2.5-vl的性能得到提升。
8
7POPE准确率提升了4.1%(从80.2%提高到
6
184.3%),并且在MS-COCO上也减少了幻对齐挑战,之前的方法集中在改进跨模态融合
0觉率。相比之下,LLaVA-1.5和InstructBLIP
8.的表现严重下降,准确性从大约84%降至上。然而,与其增强跨模态整合,我们问是否
0接近随机水平。通过详细分析,我们发现可以通过仅依靠单一模态的信息来完全避免跨
5
2LLaVA和InstructBLIP中基于CLIP的编模态对齐的挑战。
:
v码器对嵌入文本区域表现出过度的关注偏我们提出了Prompt-in-Image(图1),该方
i
x差,破坏了视觉理解。相比之下,Qwen的
r法将文本指令直接嵌入图像中。通过迫使模型
a视觉编码器能够稳健地处理带有嵌入文本
通过视觉通道处理所有信息,这种方法可能会
的图像。关键的是,Prompt-in-Image减少
了Qwen的模态差距,通过统一单个模态增强融
您可能关注的文档
最近下载
- 北京市西城区2025-2026学年高三上学期期末考试化学试卷.docx VIP
- DB1310_T 371-2025 薄皮甜瓜设施栽培技术规程.docx VIP
- 高血脂的并发症ppt.pptx VIP
- DB1311_T 092-2025 冬小麦机械化分层施肥技术规程.docx VIP
- DB1311_T 093-2025 设施葡萄园土壤次生盐渍化改良技术规程.docx VIP
- DB65棉花生产全程机械化技术规程第6部分:植保(脱叶)作业.docx VIP
- DB65切花百合设施生产技术规程.docx VIP
- DB65切花郁金香设施促成栽培生产技术规程.docx VIP
- 2026年1月浙江省高考首考选考地理试卷试题(含答案).pdf VIP
- 01 关于印发公司专业技术职务任职资格评定管理办法、专业技术职务任职资格考核认定(确认)办法和工程系列专业技术职务任职资格评审实施细则的通知(中电建人〔2019〕1号).pdf VIP
原创力文档

文档评论(0)