基于深度图像信息手语识别算法.docVIP

下载本文档

25
0
约5.66千字
约 11页
2018-06-23 发布于福建
举报
版权申诉

基于深度图像信息手语识别算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度图像信息手语识别算法

基于深度图像信息手语识别算法　　摘要：为了实现手语视频中手语字母的准确识别，提出了一种基于DI_CamShift和手语视觉单词（SLVW）的手语识别算法。首先采用Kinect获取手语字母手势视频及其深度信息；然后通过计算获得深度图像中手语手势的主轴方向角和质心位置，计算搜索窗口对手势跟踪；进而使用基于深度积分图像的Ostu算法分割手势并提取其尺度不变特征转换（SIFT）特征；最后构建SLVW词包并用支持向量机（SVM）进行识别。单个手语字母最好识别率为99.67%，平均识别率96.47%。　　关键词：DI_CamShift；手语视觉单词；Kinect；深度图像；尺度不变特征转换；手语识别　　0 引言　　聋人使用的手语，是一种进行信息交流、传递思想的自然方法，是由手的形状、手腕和手臂的运动、与之对应的人脸表情、嘴唇读音形状以及其他身体姿态相结合的人体语言。中国手语包括手指语和手势语两类：手指语由30个手指字母构成基本单位，是用手指的变化和动作代表一个汉语拼音字母，并按照汉语拼音规则和顺序依次拼出词语构成的语言；手势语是通过指示性的形象手指姿态模拟事物形状和动作的自然手势。由于汉字本身包含的字词较多，所以使用手势很难全面、准确地将其表述完整。而手指语与拼音的拼写方式一致，可以表达很多专业术语以及抽象概念，具有简明易学、手势较少的特点，因此手语字母的识别是手语识别中非常重要的一部分。根据教育部及中国文字改革委员会等单位公布的现行中国手语实施方案，中国手语中包括30个手语字母：26个单字母（A～Z）和4个双字母（ZH、CH、SH、NG），如图1所示。　　手语识别研究包括两类：基于计算机视觉的手语识别[1]和基于佩戴式设备的手语识别。由于佩戴式位置跟踪器与数据手套的价格较高，并且穿戴方式复杂，所以很难推广到实际应用中。随着视频采集设备的普及和应用，基于计算机视觉的手语识别以其自然、便捷的交互方式受到越来越多的关注，尤其是在硬件成本方面，该方式所需设备成本很低，因此非常适于普及应用，是目前手语识别的研究重点[2-3]。　　本文采用Kinect作为手语视频采集设备，在获取彩色手语视频的同时得到相应的手语深??图像信息，通过深度信息特点提出了一种改进的DI_CamShift手势跟踪算法，并将深度图像信息应用于传统的Ostu算法进行手势分割，进而构建SLVW词包作为手语手势特征描述，最后训练支持向量机（Support Vector Machine，SVM）分类器对手语字母进行识别，且通过实验验证了算法的有效性。　　1 基于DI_CamShift的手势跟踪　　因为手语视频所处场景光照情况比较稳定，所以本文选用对缓慢变换光照不敏感的帧差法进行手语手势检测，可以获得较好的效果，如图2所示。　　传统CamShift算法在彩色空间转换和运动手势跟踪方面存在不足，所以本文使用图像的深度信息改进CamShift算法，使用Depth Image CamShift（DI_CamShift）算法[4]。　　1）将整个深度图像设为搜索区域；　　2）采用帧差法检测视频中的运动人手区域，对Search Window进行初始化，定位其尺寸和位置；　　3）对Search Window区域内的部分，计算其深度直方图的概率分布；　　4）分别计算深度图像中手势的长轴和短轴的方向θ1、θ2；　　5）使用MeanShift算法计算窗口内深度手势图像的质心位置，根据质心位置和主轴方向θ1、θ2调整Search Window的尺寸；　　6）对于下一帧手语视频图像，用步骤5）的Search Window的质心和尺寸，跳转至步骤3）继续运行；　　7）如果检测到多个运动目标，则准确的目标手势为HandGesture=Min{M00（Obj1），M00（Obj2），…，M00（Objn）}。因为距离摄像机远的物体具有较大的深度值，而手语识别中认为待识别手语手势是在打手语者身体之前，距离Kinect摄像机最近的目标物体，所以选取具有最小0阶矩值的Search Window，该窗口内的手势像素具有最小的深度信息值的和，可确定为最前景目标手势区域。　　一旦在深度手势视频中确定了跟踪窗口，就同步地将该窗口绘制到彩色视频中对应的位置处，实现彩色视频中手势的跟踪。相同场景下，DI_CamShift算法具有更好的跟踪效果，不会出现在跟踪中丢失手势目标的情况，也可去除距离摄像头较远的人手区域的误判跟踪。　　3 SLVW词包特征　　BoW（Bag of Words）模型是信息检索领域常用的文档表示方法。在信息检索时，对于任何一个文档，BoW模型都忽略它的单词前后顺序和语法、上下文等要素，只是将其看作为词汇的集合，文档中所有单词都被看作