- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要
摘要
计算机视觉技术的不断发展和应用,给广大国民的生产生活带来了许多便利。
当前,随着计算机视觉认知任务取得长足进步,例如图像目标识别和图像实例分
割等,视觉场景理解这一任务逐渐受到越来越多研究人员的关注。场景理解的关
键是训练模型准确理解图像或视频中目标实例之间的关系,尤其是人与周围目标
之间的关系。场景图(SceneGraph)就是解决这一任务的关键技术。场景图是由
节点和边组成的图结构,节点表示图像中的目标实例,边表示节点间的视觉关系,
图结构表示为关系三元组〈主体,谓词关系,客体〉形式,如〈人,举起,杯子〉。
鉴于场景图在图像场景理解上的显著效果,本文将探索利用场景图来提升视频人
物活动理解任务。
视频人物活动理解任务,即让模型准确识别出视频中人与周围目标之间的视
觉关系。其中,又分为理解单张视频帧的人物交互关系(帧级视频场景图生成)
和理解视频片段级的人物动作(并发动作识别)。帧级视频场景图生成任务研究,
面临数据集中标注帧数目不足、训练策略忽略时间一致性的难题。并发动作识别
任务研究,面临时间信息建模困难、计算和存储资源需求高的难题。针对上述情
况,本文提出了时序先验推理策略和场景图建模时间信息的方法,来依次解决上
述两个人物活动理解任务面临的问题。具体内容如下:
(1)如何扩充视频数据集?在能够生成单帧场景图的视频数据集中,关键帧
的标注数量不足,使得模型无法充分利用帧与帧之间的时序信息,限制了场景图
更准确地生成。针对上述问题,本文提出了时序先验推理算法来自动标注视频数
据集中的关键帧。首先,从数据集中统计出了谓词关系在时序上转移规律,并将
其归纳为时序先验知识。其次,从视频数据集中选择未被标注的关键帧,利用目
标检测器识别出其中的目标实例。最后,基于视频数据集中已有的标注帧和时序
先验知识,对选择出来的关键帧进行视觉关系标注,扩充了视频数据集中标注帧
的数量。
(2)如何充分利用时序信息来提升帧级场景图的生成?首先,使用扩充后的
视频数据集来训练模型,使模型能够更加充分地学习到帧与帧之间的视觉关系变
化。然后,基于时序先验知识预测出可靠的谓词分布,提出了时序先验连续性损
失函数,使模型更充分地学习到帧与帧之间的时序相关性,进而保证模型的输出
序列满足帧与帧之间的时间一致性。
(3)如何利用生成的场景图来建模长范围时间信息,进而提升并发动作识别?
I
摘要
建模长范围时间信息是让模型理解视频内容的关键。本文基于Transformer的编
码-解码结构,构造了一个双流模型。模型的一个分支基于场景图来建模长范围时
间信息。另一个分支先编码空间信息,然后将时间与空间两种信息相结合,进而
实现对视频片段中人物活动关系的准确识别。
最后,本文归纳总结了上述研究内容,并展望了人物活动理解任务未来发展
的潜在研究点。
关键词:视觉关系,数据集扩充,场景图生成,时序信息建模,人物活动理解
II
ABSTRACT
ABSTRACT
Thecontinuousdevelopmentandapplicationofcomputervision,whichhasbrought
manyconveniencesforthegeneralpublicinproductionandlife.Currently,withsignif-
icantprogressincomputervisioncognitivetasks,suchasimagerecognitionandimage
instancesegmentation,thetaskofvisualsceneunderstandingisgraduallyreceivingmore
andmoreattentionfromresearchers.Thekeytosceneunderstandingistotrainthemodel
andma
文档评论(0)