符合预测的人类行为识别与视觉语言模型-计算机科学-机器学习-视觉语言模型-人类行为识别.pdfVIP

符合预测的人类行为识别与视觉语言模型-计算机科学-机器学习-视觉语言模型-人类行为识别.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

符合预测的人类行为识别与视觉语言模型

TimBary*,ClémentFuchs*,BenoîtMacq

ICTEAM,UCLouvain

ABSTRACT靠保证的简化标签集,前提是有一个校准集。当与人

人机回路(HITL)系统在高风险、现实世界应用中至类标注者结合使用时,这个框架在对象分类任务[4,5]

关重要,这些应用场景需要人工智能与人类决策者协中被证明是有益的。这使得CP特别适用于关键应用,

作。本研究探讨了如何利用提供严格覆盖保证的符合或者当模型在特定任务上的性能不佳时,可以补充现

本性预测(CP)技术来提升基于视觉语言模型(VLM)有的HITL框架,例如用于HAR的任务。

译的人体动作识别(HAR)系统的可靠性。我们证明了历史上,HAR问题通过依赖专家精心设计的特征

中CP可以显著减少候选类别的平均数量,而无需修改的统计方法来解决[6]。后来,大规模数据集以及高性

底层的VLM。然而,这些减少往往会导致具有长尾分能深度学习框架的出现促使研究者使用以监督方式训

2

v布的情况,这可能阻碍其实际效用。为了缓解这一问练的此类网络[7,8,9,10]。尽管后者在准确性方面取

1题,我们提出调整softmax预测的温度,而不使用额得了显著进步,但它们大多无法处理测试时的新类别。

3

6外的校准数据。本研究为动态现实环境中多模态人机当前最先进的方法[11]通过依赖广泛预训练的视觉语

6

0交互的持续努力做出了贡献。言模型(VLMs)来解决这个问题,这些模型可以使用

.

2类别的文本描述生成具有强大性能的临时分类器零样

0IndexTerms—共形预测,温度调整,视觉语言本[12]。最近,包括VLM在内的基础模型已被证明在

5模型,人类行为识别。

2一般图像分类基准上是强大的符合性预测器[13]。

:

v在这项工作中,我们探讨了在现成的VLM之上使

i1.介绍

x用CPs进行HAR分类任务的有效性,无需任何额外的

r

a现代计算机视觉(CV)系统在各种任务中表现出微调。我们的结果显示,即使具有高覆盖率保证,CPs

高性能,在某些情况下甚至超越了人类专长。然而,也可以显著减少给定视频片段可能的类别数量。我们

许多应用仍然依赖于人机协作(HITL)框架,要么是还发现,结果符合集的大小通常遵循长尾分布(如图

为了提高底层CV方法的性能,要么是因为该应用的1所示,顶部)。由于人类标注时间会随着可供选择的

�����������性质,需要由人类做出最终决策。视频分析领数量增加而增加[4,14,15],缩短这条尾巴并减少符合

域对此并不陌生,HITL框架被用于视频分割[1],以集大小的策略是有价值的,特别是在决策时间受限的

及自动驾驶中的车辆识别[2]或在视频监控背景下的应用中,例如实时视频监控。为了解决这个问题,我

行为识别(HAR)[3]。们强调调整VLM的温度参数以控制符合集大小分布

在此背景下,共形预测(CP)引起了广泛的关注。的重要性。这种调整仅使用校准集即可完成,确保无

CP框架提供了一个具有底层模型不确定性估计的可需额外的数据成本进行符合预测器校准,并保持CP

*T.BaryandC.Fuchscontributedequally.T.BaryandC.Fuchs框架的保证。

arefundedbytheMe

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档