动态手势检测与分类.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
动态手势检测与分类 王汉杰, 柴秀娟 , 陈熙霖 中国科学院智能信息处理重点实验室,中科院计算所,北京,100190 摘 要:本文提出一种对视频流中的连续手势进行检测和分类的方法。检测的目的是找到这些 手势的开始帧和结束帧。文中提出的融合音频和视觉信息的检测方法确保了检测结果的鲁棒性 和正确率。对于检测得到的手势,本文首次提出一种通过在Grassmann 流形下精确度量其协方 差矩阵距离的分类方法以有效区分不同类的手势。本文的方法在ChaLearn Multimodal Gesture dataset 2013 上进行测试,取得了很高的识别率,Recall 和Precision 均达到93% 以上。 关键词:手势检测与分类;协方差矩阵;Grassmann 流形 1.引言1 动态手势(Dynamic Gesture )是日常生活中人与人之间重要的沟通方式,也是一种具 有表现力的“体态语言”。通常意义上来讲,动态手势是倾向于手部的运动,特指手部连同 身体的个别部分特别是上肢的行为。其难点主要体现在连续视频流中的手势检测以及基于 [1] [2] 视觉或者其他特征的手势描述和分类 。 [3] 手势检测的主要任务是确定视频流中各手势的开始和结束。Elmezain 等人 利用隐马 尔科夫模型(Hidden Markov Models ,HMMs ),通过预先定义跳转模式的方法来实时分割 视频流中的十类手势。条件随机场(Conditional Random Field ,CRF )也被应用于连续视 [4] 频流中手势的检测 。随着深度传感器的广泛应用,包括彩色、深度等特征逐渐被应用于 [5] 连续视频流上的手势检测。Wu 等人 提取 Kinect 采集的语音、深度和彩色图像在内的特 征来确定特定手势在连续视频流中的开始和结束。本文的方法利用的信息有深度、彩色图 像、骨架和语音,提出了一种融合音频和视觉信息的鲁棒的手势检测方法。 [6] 在手势特征描述和分类方面,Hadfield 等人 通过提取局部二值模式(Local Binary [7] Pattern ,LBP )特征 来识别剪刀、石头、布这三个动态手势,达到了95% 以上的识别率。 [8] Liwicki 等人 则提取方向梯度直方图(Histograms of Oriented Gradients ,HOG )特征来描 [9] 述手型。除了手型以外,上肢的骨架点也是识别手势的重要特征。Wang 等人 提出了用若 干骨架点的三维相对位置的变化来描述人体的动作。为了更加稳定地识别手势,本文不仅 提取每一帧的骨架的空间点对距离特征和手型图像的 HOG 特征作为视觉特征,还提取语 音的梅尔倒频谱参数(Mel-Frequency Cepstral Coefficient ,MFCC)作为音频特征。协方差矩 阵(Covariance Matrix )被用来描述手势,充分考虑所有帧之间和所有特征维度之间的相 关性。协方差矩阵之间的距离通常定义在黎曼流形上,在具体计算时,黎曼流形上的距离 一般通过一个近似映射投影到欧式空间进行计算。这样的近似不可避免地引入误差。因此, 资助项目:中国自然科学基金(No.;中国航天医学工程预先研究项目(2013SY54A1303) 联系作者:王汉杰,E-mail: hanjie.wang@vipl.ict.ac.cn

您可能关注的文档

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档