- 0
- 0
- 约5.25万字
- 约 11页
- 2026-03-09 发布于北京
- 举报
MLLMs的功效基准测试
JunyingWang,WenzheLi,YalunWu,YingjiLiang,YijinGuo,
ChunyiLi,HaodongDuan,ZichengZhang,GuangtaoZhai
FudanUniversity,ShanghaiArtificialIntelligenceLaboratory,ShanghaiJiaoTongUniversity
Correspondingauthor.
ProjectPage:/JunyingWang959/A4BenchTeam:https://aiben.ch
Abstract理解可及性对于智能代理(无论是生物的还是人工
的)来说至关重要,无论是在有意义地与其环境互动。
可用性理论表明,环境本身提供了塑造感知和行为的动
对于在复杂环境中导航的人工智能系统而言,理解可及
作可能性。尽管多模态大型语言模型(MLLMs)在视觉-
语言任务中表现出色,但它们对可用性的感知能力——性确保了坚固且直观的交互并增强了安全性。例如,机
这对直观和安全的交互至关重要——仍然研究不足。为器人感知到表面可以提供支撑时能够安全地穿越地形,
本了解决这一问题,我们引入了A4基准测试,这是一个新而识别出物体可以抓取时则能有效地操纵它。此外,有
译的基准测试,旨在评估MLLMs在两个维度上的可用性效的可及性感知使工业机器人能够以更高的效率执行
中感知能力:1)构成性可担负性,通过跨越九个子学科的任务,并且允许康复机器人通过适应用户需求来增强人
1,282组问答对来评估对固有物体属性的理解;2)变革机交互。辨别有益或有害的可及性的能力支撑了从生存
2性赋权,通过718组具有挑战性的问答对探索动态和情到复杂社会互动的各种行为。吉布森强调了这一点,指
v境细微差别(例如,误导性、时间依赖性、文化或个人特
3出人类如何修改环境“以改变其提供的功能”,突显了
9定的可用性)。我们评估了17个MLLMs(包括九个专有可及性和有意行动之间的深刻联系。
8模型和八个开源模型),并将它们与人类的表现进行了比
0较。结果显示,专有模型总体上优于开源模型,但所有模MLLMs应该具备什么样的感知能力?
0.型都远低于人类的表现,特别是在转换型可用性方面表对物体功能的准确感知使其真正用途得以识别,正
6现不佳。此外,即使是性能最佳的模型,如Gemini-2.0-如吉布森所言,“如果一个物体的可及性被正确感知,
0
5Pro(整体精确匹配准确率为18.05%),在表现上也显著我们说它看起来就像它本身。”。然而,辨别真正的功能
2落后于人类(最好:85.34%,最差:81.25%)。这些发现往往需要经验学习,因为看似无害的一片叶子可能隐藏
:突显了MLLMs在环境理解方面的关键差距,并为推进着荨麻的刺痛,或者看似乐于助人的政客可能掩盖了欺
v
iAI系统以实现更强大、情境感知的
您可能关注的文档
- GPT-2 中的通用神经元:出现、持续及其功能影响.pdf
- 通过测度松弛实现随机最优控制.pdf
- 快速移动平台的卫星连接预测.pdf
- URBANSCORE:一个实时个性化宜居性分析平台.pdf
- 视觉-听觉手部姿态和接触估计.pdf
- RestAware:使用 FMCW 雷达和 AI 生成摘要的非侵入式睡眠监测.pdf
- 生成式 AI 在 CAD 自动化中的应用:利用大型语言模型进行三维建模.pdf
- 法律知识图谱的基础 Schema.org 映射:表示巴西法律规范作为 FRBR 作品.pdf
- 课时时间- 联合时间与临床建模用于纵向 DCE-MRI 中的小乳腺病变分割.pdf
- MECAT:一个用于细粒度音频理解任务的多专家构建基准.pdf
最近下载
- 2026年考试题光谱分析基础理论知识测试题库.docx VIP
- 怎样把交流电变成直流电.ppt VIP
- 吹膜新员工安全培训课件.pptx VIP
- 2026年湖南财经工业职业技术学院单招职业技能测试题库附答案详解.docx VIP
- 建筑施工技术说课课件.ppt VIP
- 绿色清新模板.ppt VIP
- 2026年绵阳市国资委社会化招聘机关工作人员的备考题库及答案详解一套.docx VIP
- 国家建筑标准设计图集22G101-3 混凝土结构施工图平面整体表示方法制图规则和构造详图(独立基础、条形基础、筏形基础、桩基础).pdf VIP
- 2026年常州工业职业技术学院单招职业适应性测试题库带答案解析.docx VIP
- 斜拉桥异形钢主塔竖向转体施工工法.pdf VIP
原创力文档

文档评论(0)