复杂环境下通用的手势识别方法.docVIP

下载本文档

7
0
约 17页
2016-09-15 发布于北京
举报
版权申诉

复杂环境下通用的手势识别方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

复杂环境下通用的手势识别方法.doc

复杂环境下通用的手势识别方法　　摘要：用来解决手势识别中光照变化、背景干扰等问题的方法，往往计算量大，耗时长。针对这一问题，提出了一种复杂环境下通用的手势识别方法。该方法利用二进制方式实现支持向量机（SVM）模型并且使用位运算代替滑动窗口从而完成目标快速筛选，然后用统一计算设备架构（CUDA）实现卷积神经网络对初筛区域进行二次判断和识别。该方法不依赖于动态手势识别技术，可以应用于动态和静态的手势识别，能够同时处理光照变化、背景干扰的问题。实验结果表明所提算法的计算效率相比基于滑动窗口的算法有100至1000倍的提升，处理一幅图片的时间约为0.01s。在修正后的Marcel数据集上实验结果达到了96.1%的准确率和100%的召回率。效率上的提升使得算法能够实时进行复杂环境下的手势识别。　　关键词：　　手势识别；位运算；卷积神经网络；复杂环境；肤色似然　　中图分类号： TP391.413 文献标志码：A 　　0引言　　现行的手势识别方法的主要步骤是提取精确的手势区域，然后作形状或者轮廓识别。提取手势区域的方法有依赖于测距设备的方法，比如Kinect[1-2]、双目设备[3]，也有依赖于单目视觉的方法[4]。前者的主要原理是人机交互中手的位置距离传感器应该在一定的区间内，之后进行距离阈值分割。而基于视觉的方法主要是确定合理的肤色阈值，进行肤色分割和去噪，确定手势区域或者轮廓。　　这些方法虽然依赖的特征不同，但是在整体处理步骤上比较相似，都需要首先对手势区域进行精确的分割。方法面临的挑战主要集中在复杂环境下的手势分割。如果希望算法在距离、光照可变的环境下表现出良好的鲁棒性，一般会将很多非手势的区域也识别为手势，这将增加手势分割的难度，在复杂背景下，这一问题会更加明显。在背景环境复杂时如果想降低手势分割的难度，一般需要对输入的图像特征进行更严格的提取，这同时也降低了模型的鲁棒性，在光照、距离等条件变化时，会出现丢失手势的问题。　　两类问题相互制约，针对这一情况，研究者们把精力主要放在如何更加精准地提取特征上面。用作手势分割的特征主要集中在肤色[4]和距离[1，3]，有的学者采取了将轮廓信息结合先验形状来进行更加准确的分割方式来处理这一问题[5]，此类方法被广泛地用于边缘提取领域，在针对小规模噪声区域以及手势类别较少的情况时能获取不错的效果。主要问题是对于多个先验形状的表达没有特别理想的方案，在形状增多之后，形状项的作用明显下降，这与形状之间本身的冲突有关。更重要的一点是图像分割方法一般耗时都在数秒甚至数十秒，时间复杂度上无法满足手势识别的需要。因为手势分割的运用场景多为动态场景，所以运动目标检测的方法也经常用来辅助手势分割。　　现行手势分割方法中最常用的是按照提取肤色特征、二值化、形态学滤波、运动目标特征或者距离特征协助检测这个过程处理[3-4]。有时还需要做人脸检测，排除人脸区域的干扰。融合了多种特征的方法在光照变化和背景拥有类似肤色的物体时仍然会出现不能有效分割的情形。　　在手势识别方面，Dardas等[6]提出了一种基于特征包的手势识别方法，在识别率和计算效率上都取得了较好的结果。对于良好的手势轮廓，Belongie等[7]提出的形状上下文能够得到高准确率和对非刚性畸变鲁棒的结果。矩特征，指尖等手势的几何特征[1]也经常被用作为手势识别的特征。卷积神经网络能够自动获取特征，在处理静态图片时表现出了非常高的准确率，同时对噪声以及各种形变鲁棒。　　本文提出一种新的方法来解决手势识别中鲁棒性和算法复杂性之间的矛盾。该方法第1步使用二进制运算实现的支持向量机（Support Vector Machine， SVM）分类器并用位运算代替滑动窗口，快速提取出多个可能的备选区域。第2步使用卷积神经网络来完成手势的再判定与识别工作。文中算法的实现方式非常关键，直接关系模型的运算效率。第1步中使用的分类器为线性SVM模型，需要在支持64位整型机器的环境下使用二进制运算的方式实现，在执行效率上相对于基于滑动窗口的算法有着100倍左右的提升[8]。第2步使用的分类器为卷积神经网络，在实现上使用了统一计算设备架构（Compute Unified Device Architecture， CUDA）进行卷积运算的加速，能获得10倍左右的加速比[9]。　　1手势区域提取　　本文手势区域提取的方法不要求精确提取手势轮廓或者锁定备选框。该方法核心思想是用最短的时间排除掉绝大部分的搜索区域，剩下无法判断的区域结合其他方法进行处理。　　方法本身并不依赖于特定特征，所有能够用来排除大量备选区域的特征均可以使用，比如通过测距设备获取的距离似然特征，使用视觉设备获取的肤色似然特征。因为肤色似然特征对于硬件的要求