一种多对一访谈范式用于高效 MLLM 评估.pdfVIP

一种多对一访谈范式用于高效 MLLM 评估.pdf

一种多对一访谈范式用于高效MLLM评估

YeShen,JunyingWang,FarongWen,YijinGuo,QiJia,ZichengZhang,GuangtaoZhai

ShanghaiJiaoTongUniversity,ShanghaiAILaboratory,FudanUniversity

Correspondingauthor.

ABSTRACT覆盖问答测试效率低下的问题。我们的方法包括三个

多模态大型语言模型（MLLMs）的快速发展促进了众关键组成部分：(i)一个两阶段面试策略，包括一个轻

多基准测试的创建。然而，传统的全范围问题回答评量级预面试进行初步难度校准和正式面试进行全面能

本估存在高冗余和低效率的问题。受到人类面试过程的力评估；(ii)访谈者权重的动态调整，允许不同模型更

译启发，我们提出了一种多对一访谈范式用于高效地评公平、全面地评价被面试者；以及(iii)一个自适应难

中估MLLM。我们的框架包括（i）一个包含预面试和正度机制，根据当前轮次的难度和被面试者的表现在更

1式面试阶段的两阶段面试策略，（ii）动态调整面试官新后续问题，确保广泛覆盖各个能力水平。这些组成

v权重以确保公平性，以及（iii）一种自适应机制来选部分共同实现了对MLLMs的全面的、准确的、公平

6择问题难度级别。在不同基准测试上的实验表明，所的和高效的评估。

8提出的范式与全范围结果的相关性比随机抽样高出显我们的主要贡献如下：

1著提高，PLCC提高了17.6%，SRCC提高了16.7%，

.•我们提出了一种用于MLLM评估的多对一访谈

9同时减少了所需的问题数量。这些发现证明了所提出

0范式，包括（一）两阶段面试策略，（二）动态面

5的范式为大规模MLLM基准测试提供了一种可靠且试官权重调整，以及（三）自适应难度机制。

2高效的替代方案。

i•我们证明了这一范式提供了可靠、公平和高效的

xIndexTerms—MLLM评估，多对一面试

r反映的多语言模型能力，涵盖了整体性能和难度

1.介绍感知分布。

多模态大型语言模型（MLLMs）在涉及图像、视•在MMT-Bench、ScienceQA和SEED-Bench上

频、音频和3D内容的各种任务中取得了显著的性进行的大量实验表明，我们的方法始终优于随机

采样，并且在使用较少问题的情况下最多可达到

能[1]。随着这些模型的迅速发展，可靠且高效的评估

17.6%的PLCC和16.7%的SRCC改进超过全

已经成为一个中心研究挑战，由此产生了各种各样的

基准测试[2]。然而，传统的全范围问题回答（QA）范围问答测试。

评估存在严重冗余：许多实例高度相似，对模型评估

贡献的新信息很少[3]。也就是说，可靠排名所需的实2.相关工作