基于多尺度特征表示的时序动作检测方法研究.pdfVIP

基于多尺度特征表示的时序动作检测方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于多尺度特征表示的时序动作检测方法研究

摘要

随着互联网技术的发展和智能终端设备的普及,网络平台上每天都在产生大量的

视频数据,这些视频的内容良莠不齐,很有可能包含一些暴力、色情等违法违规内容,

造成严重的社会影响,同时一些平台希望根据视频内容来为不同的用户推荐相关视频,

依靠人工对这些视频数据进行处理十分低效,因此基于深度学习的视频理解受到了越

来越多的关注。时序动作检测是视频理解领域的一个基础任务,该任务的目的是在一

段未经剪切的连续视频中检测出人体动作的开始时间节点和结束时间节点,并对动作

进行分类。时序动作检测技术可以应用在如智能安防、辅助医疗、视频算法推荐等多

个领域,具有广阔的应用前景。因此,基于深度学习的时序动作检测研究具有重要的

意义。

在近年来,基于深度学习的时序动作检测研究取得了丰硕的研究成果。然而目前

的时序动作检测仍存在一些问题,在实际应用中,视频中不同动作实例的持续时间往

往不同并且差距很大,这种时间尺度问题是目前时序动作检测所面临的主要难点。针

对以上存在的问题,本文首先引入了时序自适应模块代替时间卷积,该模块通过将时

间卷积和自注意力有效结合,可以平衡网络捕捉的短期时序信息和长期时序信息,本

文还引入了通道自适应模块,该模块根据输入特征自适应的调整通道权重,以引导网

络适应不同的动作实例和任务,通过结合时序自适应模块和通道自适应模块,本文提

出了时序自适应特征金字塔网络,产生不同尺度的时间特征用来应对动作的时间尺度

问题,提高了网络产生时间提案的灵活性,本文还利用通道自适应模块将传统的平行

检测头改进为统一检测头,提高了网络的检测精度。

此外,本文进一步引入了时序可变形注意力模块,能够灵活的调整网络的时间感

受野,帮助网络更加关注有用的时间信息,通过将时序可变形注意力模块与时序自适

应特征金字塔网络整合,进一步提高了网络的检测准确性。为了验证本文所提出的改

进方案的有效性,本文在THUMOS14数据集和ActivityNet1.3数据集上进行了实验,

结果证明本文提出的改进方法是有效的,且与当前的一些先进方法相比具有竞争力。

关键词:视频理解;时序动作检测;特征金字塔网络;注意力机制

基于多尺度特征表示的时序动作检测方法研究

ABSTRACT

WiththedevelopmentofInternettechnologyandthepopularizationofsmartterminal

equipment,alargeamountofvideodataisgeneratedontheInternetplatformeveryday.The

contentofthesevideosvariesfromgoodtobad,andmaycontainsomeillegalcontentsuchas

violenceandpornography,causingserioussocialimpact.Atthesametime,someplatforms

hopetorecommendrelatedvideostodifferentusersbasedonvideocontent.Itisveryinefficient

torelyonmanualprocessingofthesevideodata.Therefore,videounderstandingbasedondeep

learninghasreceivedmoreandmoreattention.Temporalactiondetectionisabasictaskinthe

fieldofvideounderstanding.Thepurposeofthistaskistodetectthestarttimeandendtimeof

humanactionsinacontinuousuntrimmedvideo,andclassifytheactionlabels.Tempo

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档