超越可见:评估多模态大型语言模型的遮挡感知能力.pdfVIP

超越可见:评估多模态大型语言模型的遮挡感知能力.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

超越可见:评估多模态

大型语言模型的遮挡感知能力

1,23∗3∗3∗

ZhaochenLiu,KaiwenGao,ShuyiLiang,BinXiao,

441,5†

LimengQiao,LinMa,TingtingJiang

1NationalEngineeringResearchCenterofVisualTechnology,NationalKeyLaboratory

forMultimediaInformationProcessing,SchoolofComputerScience,PekingUniversity

2AIInnovationCenter,SchoolofComputerScience,PekingUniversity

3SchoolofElectronicsEngineeringandComputerScience,PekingUniversity

45

MeituanInc.NationalBiomedicalImagingCenter,PekingUniversity

本Abstract划(Lingetal.2020)。同样,在计算机视觉中,遮挡感

知也是至关重要的。鉴于遮挡的普遍存在性,这种能力

遮挡感知,人类级空间理解的关键基础,体现了将视觉

译可以提升包括导航、操作和场景理解等多个下游任务的

识别与推理相结合的挑战。尽管多模态大型语言模型

中(MLLMs)展现了卓越的能力,但它们在遮挡感知方面表现和可靠性(Ao,Ke,andEhinger2023;Ozguroglu

1的表现仍需进一步探索。为了解决这一差距,我们引入etal.2024)。除了实际相关性之外,遮挡感知还为模型

v了O-Bench,这是首个专门针对遮挡感知设计的视觉问整合视觉识别与推理的能力提供了一个理想的测试环

9答(VQA)基准测试。基于SA-1B,我们通过一种新颖的境,因为它本质上需要识别可见线索并基于上下文证据

5

0分层合成方法构建了1,365张图像,这些图像展现了语和先验知识推断隐藏的内容。凭借大规模训练带来的丰

4义连贯的遮挡场景。在此基础上,我们在五个定制任务富先验知识和推理能力,MLLMs相应地具备了应对这

0.中总共标注了4,588个问题答案对,并采用了一种可靠一挑战的潜力。因此,一个自然的问题出现了:MLLMs

8的半自动工作流程。我们的广泛评估显示,22个代表性在处理遮挡感知挑战方面有多有效?

0

5MLLMs与人类基线之间存在显著的表现差距,这表明

2仅靠模型扩展或思考过程并不能充分弥补这一差距。我然而,对该领域的全面研究仍然缺乏。为了解决这

:们进一步识别出三种典型的失败模式,包括过度保守的一空白,我们引入了O-基准,这是第一个专门针对遮

v

i偏见、脆弱的整体预测以及在定量任务上的挣扎。我们挡感知设计的视觉问答(VQA)基准测试。如图2所示,

x

r认为O-Bench不仅能够为遮挡感知提供一个重要的评估O-

您可能关注的文档

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档