MLLMs 的功效基准测试.pdfVIP

MLLMs 的功效基准测试.pdf

MLLMs的功效基准测试

JunyingWang,WenzheLi,YalunWu,YingjiLiang,YijinGuo,

ChunyiLi,HaodongDuan,ZichengZhang,GuangtaoZhai

FudanUniversity,ShanghaiArtificialIntelligenceLaboratory,ShanghaiJiaoTongUniversity

Correspondingauthor.

ProjectPage:/JunyingWang959/A4BenchTeam:https://aiben.ch

Abstract理解可及性对于智能代理（无论是生物的还是人工

的）来说至关重要，无论是在有意义地与其环境互动。

可用性理论表明，环境本身提供了塑造感知和行为的动

对于在复杂环境中导航的人工智能系统而言，理解可及

作可能性。尽管多模态大型语言模型（MLLMs）在视觉-

语言任务中表现出色，但它们对可用性的感知能力——性确保了坚固且直观的交互并增强了安全性。例如，机

这对直观和安全的交互至关重要——仍然研究不足。为器人感知到表面可以提供支撑时能够安全地穿越地形，

本了解决这一问题，我们引入了A4基准测试，这是一个新而识别出物体可以抓取时则能有效地操纵它。此外，有

译的基准测试，旨在评估MLLMs在两个维度上的可用性效的可及性感知使工业机器人能够以更高的效率执行

中感知能力：1)构成性可担负性，通过跨越九个子学科的任务，并且允许康复机器人通过适应用户需求来增强人

1,282组问答对来评估对固有物体属性的理解；2)变革机交互。辨别有益或有害的可及性的能力支撑了从生存

2性赋权，通过718组具有挑战性的问答对探索动态和情到复杂社会互动的各种行为。吉布森强调了这一点，指

v境细微差别（例如，误导性、时间依赖性、文化或个人特

3出人类如何修改环境“以改变其提供的功能”，突显了

9定的可用性）。我们评估了17个MLLMs（包括九个专有可及性和有意行动之间的深刻联系。

8模型和八个开源模型），并将它们与人类的表现进行了比

0较。结果显示，专有模型总体上优于开源模型，但所有模MLLMs应该具备什么样的感知能力？

0.型都远低于人类的表现，特别是在转换型可用性方面表对物体功能的准确感知使其真正用途得以识别，正

6现不佳。此外，即使是性能最佳的模型，如Gemini-2.0-如吉布森所言，“如果一个物体的可及性被正确感知，

5Pro（整体精确匹配准确率为18.05%），在表现上也显著我们说它看起来就像它本身。”。然而，辨别真正的功能

2落后于人类（最好：85.34%，最差：81.25%）。这些发现往往需要经验学习，因为看似无害的一片叶子可能隐藏

:突显了MLLMs在环境理解方面的关键差距，并为推进着荨麻的刺痛，或者看似乐于助人的政客可能掩盖了欺