基于关注度网络的行为识别.docxVIP

下载本文档

0
0
约2.58千字
约 3页
2020-03-20 发布于山东
举报
版权申诉

基于关注度网络的行为识别.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关注度网络的行为识别　　摘要：行为识别是计算机视觉领域的一个重要研究课题，具有广泛的应用前景。针对现实中对视频整体序列结构建模会增加大量的冗余信息，提出了一种基于时空关注度长短期记忆网络（spatial-Temporal Attention Long-Short Term Memory.STA-LSTM）的行为识别框架，提高了行为识别效率。利用GoogLeNet逐层卷积视频帧，自动聚合蕴含边、角和线等底层特征以生成具有显著结构性的高层语义特征。在LSTM中引入关注度网络来学习关注度权重，利用光流掩膜分割有效的运动前景区域，从而优化关注度权重，将其与卷积特征相结合作为STA-LSTM模型的输入特征，从而进行行为识别。在UCF101数据集上的实验结果表明，本文方法优于当前的一些先进方法。　　关键词：行为识别;长短期记忆网络;关注度;光流掩膜　　0引言　　识别视频中的行为动作是计算机视觉重要任务之一，其目的是从视频中提取、分析和表达行为动作信息。该技术正被广泛应用于视频监控、人机交互、医疗看护等领域。随着深度学习技术在计算机视觉中越来越多的应用，也为研究行为识别开拓了新的方向。然而深度学习本身由于需要大数据量和网络参数数目过多等局限性，使得模型在计算方面付出了较大的代价。对此，本文重点研究如何挖掘视频中的有效信息，设计泛华能力强的深度神经网络，识别视频中的行为动作。　　早期的一些研究主要是利用卷积神经网络来学习视频中行为的深度表达。Karpathy等人介绍了一种多规模Sports-1M视频数据集，来训练深度卷积神经网络。Simonyan等人提出一种双流卷积神经网络，通过分别处理RGB图像和光流图中的外观和运动信息达到了比较好的行为识别效果。然而，使用卷积神经网络仅能捕捉极少的时序信息。对此，循环神经网络能够较好地解决这个问题，尤其是LSMe.在视频序列建模方面效果显著。然而现实场景中，由于视频时长以及视频中动作所发生的区域不同，对视频整体序列结构建模会增加大量的冗余信息。对此，本文在循环神经网络中引入关注度机制，其能够模拟人类视觉注意力转移机制，将有限的认知资源聚集于场景中重要的刺激，而抑制那些不重要的信息。具体来说，利用GoogLeNet逐层卷积视频帧，自动聚合蕴含边、角和线等底层特征，以生成具有显著结构性的高层语义特征。在LSTM模型中引入关注度机制，来学习关注度权重系数矩阵。由于视频中的背景噪声和相机移动等因素的影响，利用卷积神经网络作用于RGB图像得到的特征不能准确地捕捉视频中的行為动作信息。针对这个问题，本文利用光流掩膜对视频中的运动前景区域进行分割，以此来校正网络所学习到的关注度权重。将关注度系数和卷积特征相结合，生成新的特征激活图序列。其中高值表示显著性区域，即得到STA-LSTM网络的显著性输入特征，然后对特征进行学习，从而识别视频中的行为。本文主要贡献是：　　（1）提出了一种新颖的深度学习框架——STA-LSTM用于视频中的行为识别，在端到端的处理过程中，本文方法可以准确地捕捉行为的外观信息和动作信息。　　（2）提出的STA-LSTM模型能够有效地去除冗余信息，提取行为发生的有效区域，提高模型识别效率。　　（3）将本文方法应用于UCF101数据集取得了良好的识别效果，与当前一些优秀的研究工作相比，在识别性能方面得到了显著地提升。　　1相关工作　　行为识别的目的是从未知视频或图像序列中自动识别其中进行的行为动作，行为本身是相关联的一系列二维空间图像在时间方向上的连接。因此，行为本身具有空间和时间上的结构关联特性。行为特有的空间和时间结构特性，为许多研究者指明了行为识别的正确方向。　　早期行为识别主要使用一些传统算法，Vemulapalli等人在Lie群组中用曲线表示每个动作并且使用SVM分类器来识别行为，Zanfir等人提出了一种移动姿态框架，结合修改后的kNN分类器进行低延迟行为识别。Carlsson等人通过从动作视频中提取到的关键帧以及保存的动作原型之间做模板来完成行为，其中，形状信息是用Canny边缘检测器得到的边缘数据来表示的。这种方法能够容忍图像和样本之间一定程度的形变，且能够准确识别不同人体姿态形成的相似的形状。Tang等人采用隐马尔科夫（HMM）模型建模行为的隐状态变化过程。Pei等人将行为分解为具有语义原子动作集合并定义原子为行为体与目标交互关系的集合，通过与或图学习原子动作的时序关系，能够有效剔除时序错误的与或图行为解释，提升了识别及预测行为的性能。　　后来深度学习技术在计算机视觉中得到广泛应用，Heilbron等人）使用序列编码器（即LSTM），可以模拟随着时间推移的C3D特征的演变，使用定位模块生成整个输入视频中不同时间长度的候选提议的开始和结束时间，以进行行为