手语识别技术.pdf

下载文档

31
0
约3.39千字
约 5页
2018-06-05 发布于河南
举报
版权申诉
保障服务

手语识别技术.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

手语识别技术

手语翻译技术四川大学谢澎涛 1. 手语翻译模块手语翻译是本发明的核心功能。关键技术包括手的分割，特征提取，隐马尔可夫模型训练，和基于隐马尔可夫模型的实时识别。技术架构见下图将手从背景中提取出来是整个手势识别链的第一环，是后续工作的前提与基础。手的分割必须快速、准确并且在整个视频流中保持一致性。将手从背景中分割出来之后，需要对其进行特征提取。提取的特征必须能够很好的描述手的状态，同时具备较低的算法复杂性。基于隐马尔可夫模型进行实时手语翻译的前提是为每个手语词语建立隐马尔可夫模型，并对其进行训练，这项工作由隐马尔可夫模型训练来完成。训练的样本数据是对手语视频的每一帧图片进行手的分割、特征提取之后形成的特征向量集。实时识别的数据来源是实时视频传送过来的图片经手的分割、特征提取之后形成的特征向量流。因此，训练和识别两个过程都需要用到手的分割和特征提取技术，对视频进行预处理。 1.1手的分割人的肤色以饱和度较低的红色调为主，而且这种特征对于不同的人、不同的光照条件具有良好的一致性，在大多数情况下可以与背景很好的区分开。因此选取肤色作为人手分割的主要依据。采用一种称作 CP(ColorPredicate)的数据结构进行肤色鉴别。CP可以视为一种新定义的颜色空间，是一个三维的坐标系。 X轴代表色调H(Hue)，Y轴代表饱和度S(Saturation)，Z轴采取一种二值逻辑，表征对应于该色调和饱和度的像素点是否是肤色点。首先通过交互式训练的方式对CP进行构建，然后用CP去处理一幅未知图片，区分背景点与肤色点。手语翻译技术四川大学谢澎涛获取若干幅包含人手的图片，然后采用人工标注的方法，对手和背景进行区分。用图像处理软件 PHOTOSHOP将手的区域标注为黑色，将背景区域标注为白色。这样，一幅原始图片和与其相对应的处理之后的图片形成一组训练样本。训练算法：首先构造一个1000乘1000的二维数组CP，每一个数组元素初始化为0。对于每一组训练样本，首先将原始图片从RGB颜色空间转换为HSI颜色空间。去除I分量，只保留H 和S分量。在图片中H和S的值为0-1之间的数，为便于处理，我们给H和S乘以1000，形成新的H和S。对于属于手的每一个像素点（即人工标注为黑色的点），获取其H和S分量，然后用(H,S)点对去检索先前构造的二维数组，数组元素的值加1。例如，手内有一个像素点的H值为245，S值为124，则CP[245][124]= CP[245][124]+1; 对于属于背景的每一个像素点（即人工标注为白色的点），获取其H和S分量，然后用(H,S)点对去检索先前构造的二维数组,数组元素的值减1。例如，背景中有一个像素点的H值为567，S值为234，则 CP[567][234]= CP[567][234]-1; 处理完训练样本图片中所有的点，则一个CP就构造好了。 CP人手分割算法：对于每一幅待分割的图片，首先将其颜色空间由RGB转换为HIS。同样，为便于处理，所有的H和S 扩大1000倍。对于图片中的每一个像素点，获取其H和S的值，用H和S去检索CP，若CP[H][S]0,则该像素属于手；若CP[H][S]0,则该像素属于背景。 1.2去除背景噪声采用CP方法对手的肤色点进行提取时，无可避免的会产生来自背景的噪声。背景中的非肤色点的色调与饱和度对应于CP中的z值很有可能是大于0的，导致系统将非肤色点判断为肤色点。去除背景噪声的一个有效方法是求取最大连通区域。一幅原始图片经 CP处理过后，系统判定为肤色的像素点会被标记为白色。这些白色的像素点会形成一个个连通区域，而最大的连通区域一定对应于手。因此，只保留最大连通区域中的像素点，滤除不属于最大连通区域的白色像素点就能达到去除噪声的目的。 1.3特征提取将手从背景中分割出来之后，需要对其进行特征提取。提取的特征必须能够很好的描述手的状态，同时具备较低的算法复杂性。基于上述两个标准，我们选择位置、形状、大小、角度四个特征。位置用手的质心来描述手的位置。经过“手的分割”处理之后，得到二值图像。在此二值图像的基础上，采用下面的公式计算手的质心：手语翻译技术