- 0
- 0
- 约1.52万字
- 约 7页
- 2026-02-27 发布于北京
- 举报
一种多对一访谈范式用于高效MLLM评估
YeShen,JunyingWang,FarongWen,YijinGuo,QiJia,ZichengZhang,GuangtaoZhai
ShanghaiJiaoTongUniversity,ShanghaiAILaboratory,FudanUniversity
Correspondingauthor.
ABSTRACT覆盖问答测试效率低下的问题。我们的方法包括三个
多模态大型语言模型(MLLMs)的快速发展促进了众关键组成部分:(i)一个两阶段面试策略,包括一个轻
多基准测试的创建。然而,传统的全范围问题回答评量级预面试进行初步难度校准和正式面试进行全面能
本估存在高冗余和低效率的问题。受到人类面试过程的力评估;(ii)访谈者权重的动态调整,允许不同模型更
译启发,我们提出了一种多对一访谈范式用于高效地评公平、全面地评价被面试者;以及(iii)一个自适应难
中估MLLM。我们的框架包括(i)一个包含预面试和正度机制,根据当前轮次的难度和被面试者的表现在更
1式面试阶段的两阶段面试策略,(ii)动态调整面试官新后续问题,确保广泛覆盖各个能力水平。这些组成
v权重以确保公平性,以及(iii)一种自适应机制来选部分共同实现了对MLLMs的全面的、准确的、公平
6择问题难度级别。在不同基准测试上的实验表明,所的和高效的评估。
8
8提出的范式与全范围结果的相关性比随机抽样高出显我们的主要贡献如下:
4
1著提高,PLCC提高了17.6%,SRCC提高了16.7%,
.•我们提出了一种用于MLLM评估的多对一访谈
9同时减少了所需的问题数量。这些发现证明了所提出
0范式,包括(一)两阶段面试策略,(二)动态面
5的范式为大规模MLLM基准测试提供了一种可靠且试官权重调整,以及(三)自适应难度机制。
2高效的替代方案。
:
v
i•我们证明了这一范式提供了可靠、公平和高效的
xIndexTerms—MLLM评估,多对一面试
r反映的多语言模型能力,涵盖了整体性能和难度
a
1.介绍感知分布。
多模态大型语言模型(MLLMs)在涉及图像、视•在MMT-Bench、ScienceQA和SEED-Bench上
频、音频和3D内容的各种任务中取得了显著的性进行的大量实验表明,我们的方法始终优于随机
采样,并且在使用较少问题的情况下最多可达到
能[1]。随着这些模型的迅速发展,可靠且高效的评估
17.6%的PLCC和16.7%的SRCC改进超过全
已经成为一个中心研究挑战,由此产生了各种各样的
基准测试[2]。然而,传统的全范围问题回答(QA)范围问答测试。
评估存在严重冗余:许多实例高度相似,对模型评估
贡献的新信息很少[3]。也就是说,可靠排名所需的实2.相关工作
例比全面评估所需更少,从而推动了更高效
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf
- 跨模态知识蒸馏在语音大型语言模型中的应用.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
- 湘少版英语五年级下册全册课件(2025年3月).pptx
- 2026年低空经济全产业链薪酬调研报告-航投人才.docx
- 《自然语言处理导论》全套教学课件.pptx
- 湖南大学《环境化学》2023-2024学年第一学期期末试卷.docx
- 湖南大学《普通化学》2023-2024学年第一学期期末试卷.docx
- 湖南大学《物理化学(1)》2023-2024学年第一学期期末试卷.docx
- 湖南大学《现代物理化学》2023-2024学年第一学期期末试卷.docx
- 楚留香新传—桃花传奇超级详细图文全攻略.docx
- 乳腺大汗腺癌并皮肤广泛侵犯1例报告.docx
- 九年级社会·法治练习卷公开课教案教学设计课件资料.docx
最近下载
- 2026及未来5年中国企业级外部存储行业市场全景评估、数据监测及投资前景研究预测报告.docx
- 西师大版三年级下册数学全册课件.ppt VIP
- (2026春新版)西师大版三年级数学下册全册PPT课件.pptx
- NB-T47009-2010低温承压设备用低合金钢锻件.pdf VIP
- 2025-2026学年高中数学选择性必修 第一册北师大版(2019)教学设计合集.docx
- (高清版)B-T 16422.2-2022 塑料 实验室光源暴露试验方法 第2部分:氙弧灯.pdf VIP
- 华为问界M7 TBOX总成 V1.3.pdf
- 新编电信技术概论吴德本李惠敏第05章上课用课件.ppt VIP
- 2025年电信笔试——企业文化.pdf VIP
- (2026春新版)苏教版二年级数学下册《第7单元 图形的初步认识(三)》PPT课件.pptx
原创力文档

文档评论(0)