VER-Bench: 在细粒度视觉证据上的推理评估中对 MLLMs 的评价.pdfVIP

VER-Bench: 在细粒度视觉证据上的推理评估中对 MLLMs 的评价.pdf

VER-Bench:在细粒度视觉证据上的推理评

估中对MLLMs的评价

ChenhuiQiang∗ZipengWangSiyaoLi

ZhaoyangWei∗UniversityofChineseAcademyUniversityofChineseAcademy

ofSciencesofSciences

XumengHan∗Beijing,ChinaBeijing,China

qiangchenhui23@wangzipeng22@lisiyao24@

UniversityofChineseAcademy

本ofSciences

译Beijing,China

中JianbinJiaoXiangyuanLanZhenjunHan†

vUniversityofChineseAcademyPengChengLaboratoryUniversityofChineseAcademy

5ofSciencesGuangdong,shenzhen,ChinaofSciences

4Beijing,Chinaxiangyuanlan@.hkBeijing,China

0.jiaojb@.hanzhj@

0摘要但可能无法评估需要复杂分析的微妙线索。然而，深

2随着MLLMs的快速发展，评估它们的视觉能力变得越刻的理解和复杂的推理更多地依赖于解读微妙、不显

v眼的局部细节，而不是感知显著的宏观对象。这些细

i来越重要。当前的基准主要分为两类：基本感知基准，

x节虽然占据极小的图像区域，却往往包含更丰富、更

r专注于局部细节但缺乏深度推理（例如，“图像中有什

a重要的信息以供稳健分析。为了弥合这一差距，我们

么？”），以及主流推理基准，集中于突出的图像元素，

引入了VER-Bench，一个全新的框架来评估MLLMs的

∗Bothauthorscontributedequallytothisresearch.能力：1）识别细粒度的视觉线索，通常平均仅占图像

†Correspondingauthor

面积的0.25%；2）将这些线索与世界知识结合进行复杂

Permissiontomakedigitalorhardcopiesofallorpartofthisworkforpersonal推理。该框架包含374个精心设计的问题，涵盖了地理

orclassroomuseisgrantedwithoutfeeprovidedthatcopiesarenotmadeor

空间、

更多 >