基于场景图的人物活动理解研究.pdfVIP

下载本文档

1
0
约12.7万字
约 78页
2025-06-11 发布于江西
举报
版权申诉

基于场景图的人物活动理解研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要

计算机视觉技术的不断发展和应用，给广大国民的生产生活带来了许多便利。

当前，随着计算机视觉认知任务取得长足进步，例如图像目标识别和图像实例分

割等，视觉场景理解这一任务逐渐受到越来越多研究人员的关注。场景理解的关

键是训练模型准确理解图像或视频中目标实例之间的关系，尤其是人与周围目标

之间的关系。场景图（SceneGraph）就是解决这一任务的关键技术。场景图是由

节点和边组成的图结构，节点表示图像中的目标实例，边表示节点间的视觉关系，

图结构表示为关系三元组〈主体，谓词关系，客体〉形式，如〈人，举起，杯子〉。

鉴于场景图在图像场景理解上的显著效果，本文将探索利用场景图来提升视频人

物活动理解任务。

视频人物活动理解任务，即让模型准确识别出视频中人与周围目标之间的视

觉关系。其中，又分为理解单张视频帧的人物交互关系（帧级视频场景图生成）

和理解视频片段级的人物动作（并发动作识别）。帧级视频场景图生成任务研究，

面临数据集中标注帧数目不足、训练策略忽略时间一致性的难题。并发动作识别

任务研究，面临时间信息建模困难、计算和存储资源需求高的难题。针对上述情

况，本文提出了时序先验推理策略和场景图建模时间信息的方法，来依次解决上

述两个人物活动理解任务面临的问题。具体内容如下：

（1）如何扩充视频数据集？在能够生成单帧场景图的视频数据集中，关键帧

的标注数量不足，使得模型无法充分利用帧与帧之间的时序信息，限制了场景图

更准确地生成。针对上述问题，本文提出了时序先验推理算法来自动标注视频数

据集中的关键帧。首先，从数据集中统计出了谓词关系在时序上转移规律，并将

其归纳为时序先验知识。其次，从视频数据集中选择未被标注的关键帧，利用目

标检测器识别出其中的目标实例。最后，基于视频数据集中已有的标注帧和时序

先验知识，对选择出来的关键帧进行视觉关系标注，扩充了视频数据集中标注帧

的数量。

（2）如何充分利用时序信息来提升帧级场景图的生成？首先，使用扩充后的

视频数据集来训练模型，使模型能够更加充分地学习到帧与帧之间的视觉关系变

化。然后，基于时序先验知识预测出可靠的谓词分布，提出了时序先验连续性损

失函数，使模型更充分地学习到帧与帧之间的时序相关性，进而保证模型的输出

序列满足帧与帧之间的时间一致性。

（3）如何利用生成的场景图来建模长范围时间信息，进而提升并发动作识别？

摘要

建模长范围时间信息是让模型理解视频内容的关键。本文基于Transformer的编

码-解码结构，构造了一个双流模型。模型的一个分支基于场景图来建模长范围时

间信息。另一个分支先编码空间信息，然后将时间与空间两种信息相结合，进而

实现对视频片段中人物活动关系的准确识别。

最后，本文归纳总结了上述研究内容，并展望了人物活动理解任务未来发展

的潜在研究点。

关键词：视觉关系，数据集扩充，场景图生成，时序信息建模，人物活动理解

ABSTRACT

Thecontinuousdevelopmentandapplicationofcomputervision,whichhasbrought

manyconveniencesforthegeneralpublicinproductionandlife.Currently,withsignif-

icantprogressincomputervisioncognitivetasks,suchasimagerecognitionandimage

instancesegmentation,thetaskofvisualsceneunderstandingisgraduallyreceivingmore

andmoreattentionfromresearchers.Thekeytosceneunderstandingistotrainthemodel

andma

您可能关注的文档

文档评论（0）

营销资料库 + 关注: 实名认证

文档贡献者

本账号发布文档部分来源于互联网，仅用于技术分享交流用，版权为原作者所有。 2，文档内容部分来自网络意见，与本账号立场无关。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于场景图的人物活动理解研究.pdfVIP