基于关键帧特征库统计特征双人交互行为识别.docVIP

下载本文档

11
0
约9.78千字
约 16页
2018-08-29 发布于福建
举报
版权申诉

基于关键帧特征库统计特征双人交互行为识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关键帧特征库统计特征双人交互行为识别

基于关键帧特征库统计特征双人交互行为识别　　摘要：针对双人交互行为识别算法中普遍存在的算法计算复杂度高、识别准确性低的问题，提出一种新的基于关键帧特征库统计特征的双人交互行为识别方法。首先，对预处理后的交互视频分别提取全局GIST和分区域方向梯度直方图（HOG）特征。然后，采用k-means聚类算法对每类动作训练视频的所有帧的特征表示进行聚类，得到若干个近似描述同类动作视频的关键帧特征，构造出训练动作类别对应的关键帧特征库；同时，根据相似性度量统计出特征库中各个关键帧在交互视频中出现的频率，得到一个动作视频的统计直方图特征表示。最后，利用训练后的直方图相交核支持向量机（SVM），对待识别视频采用决策级加权融合的方法得到交互行为的识别结果。在标准数据库测试的结果表明，该方法简单有效，对交互行为的正确识别率达到了85%。　　关键词：GIST特征；方向梯度直方图；关键帧特征库；直方图相交核；UT-interaction数据库　　中图分类号：TP18； TP391.413 　　文献标志码：A 　　0引言　　在大数据时代的背景下，计算机视觉领域备受关注，其中人体交互行为识别算法研究已成为热点问题。它使用视频分析的方法从存在交互行为的视频中检测、识别人体及动作对象，并对其交互行为识别与理解。交互行为的识别算法研究具有较高的实用价值和现实意义，其研究成果在智能监控系统、视频检索、智能家居以及虚拟现实中有着广泛的应用前景[1]。　　目前，对于交互动作识别的研究有许多的技术和方法。一些学者提出了基于共生原子动作的识别方法：文献[2]提出了一种基于共生视觉词典的方法，该方法通过统计动作执行人间共生视觉词的发生频率对双人交互行为进行表示和识别；文献[3]将视频表示成一系列具有一致空间结构和一致运动的组件，通过对比成对组件的时空关系对交互视频进行识别。该类方法特征表示简单，但识别的准确率十分低。　　有一些研究者提出了构造时空匹配核函数的方法进行交互行为的识别：文献[4]中提出时空上下文对局部时空特征及其相互关系进行描述，通过构造时空上下文核函数（Spatio-Temporal Context Kernel， STCK）进行复杂交互视频的识别；文献[5]采用基于语义基元的词典（Bag Of Semantic Texton， BOST）对视频的局部时空体进行描述，并利用金字塔时空关系匹配（Pyramidal Spatiotemporal Relationship Matching， PSRM）核对交互动作进行识别。以上两种方法的问题在于时空匹配核函数较为复杂，且准确度不高。　　为此，一些研究者提出采用相对复杂的时空特征的方法对交互行为进行描述，以期提高准确度：文献[6]结合运动上下文的全局特征和局部时空兴趣点的时空特征相关性对交互行为进行描述，以提高识别的准确性；文献[7]组合了密集轨迹（Dense Trajectory Shape， DTS）、方向梯度直方图（Histogram of Oriented Gradient， HOG）、光流直方图（Histogram of Optic Flow， HOF）和运动轮廓直方图（Motion Boundary Histogram， MBH）等四种特征对多尺度密集轨线进行特征提取，并采用矢量量化（Vector Quantization， VQ）、局部软分配Locality Soft-Assignment， LSA）、稀疏编码（Sparse Coding， SC）和局部约束线性编码（Locality-constrained Linear Coding， LLC）等四种先进的特征编码对交互动作描述，进行识别与理解。然而，无论是构造时空匹配核的方法，还是复杂时空特征的方法，计算复杂度都很高，大大地限制了算法的实用性。　　而在一些单人动作识别研究中，曾提出使用提取关键帧的方法能够降低动作识别的复杂度：文献[8]提出使用关键帧提取和缩略视频的提取技术来解决人体动作识别算法的时间复杂度的问题；文献[9]提出利用弧长的方向函数对关键帧中的人体轮廓进行描述。以上两种基于关键帧的方法优点在于效率高，空间信息描述较为充分。　　根据以上分析，考虑到词袋（Bag Of Words， BOW）框架[2，7]是一种较好的描述特征简易模型，因此本文采用BOW框架来解决交互行为识别技术计算复杂度高、准确性较低的问题，提出一种新的基于关键帧特征库统计的双人交互行为描述及识别方法。在训练过程中，该方法对训练视频中的所有帧图像提取简单的全局GIST和HOG特征，采用改进的k-means聚类方法建立关键帧特征库；再根据相似度量函数，对于每个训练视频统计视频帧特征在特征库中出现的频率，生成该训练视频的直方图统计描述