手语识别技术.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
手语识别技术

手 语 翻 译 技 术 四 川 大 学 谢 澎 涛 1. 手语翻译模块 手语翻译是本发明的核心功能。关键技术包括手的分割,特征提取,隐马尔可夫模型训练,和基于隐 马尔可夫模型的实时识别。技术架构见下图 将手从背景中提取出来是整个手势识别链的第一环,是后续工作的前提与基础。手的分割必须快速、 准确并且在整个视频流中保持一致性。将手从背景中分割出来之后,需要对其进行特征提取。提取的特征 必须能够很好的描述手的状态,同时具备较低的算法复杂性。基于隐马尔可夫模型进行实时手语翻译的前 提是为每个手语词语建立隐马尔可夫模型,并对其进行训练,这项工作由隐马尔可夫模型训练来完成。训 练的样本数据是对手语视频的每一帧图片进行手的分割、特征提取之后形成的特征向量集。实时识别的数 据来源是实时视频传送过来的图片经手的分割、特征提取之后形成的特征向量流。因此,训练和识别两个 过程都需要用到手的分割和特征提取技术,对视频进行预处理。 1.1手的分割 人的肤色以饱和度较低的红色调为主,而且这种特征对于不同的人、不同的光照条件具有良好的一致 性,在大多数情况下可以与背景很好的区分开。因此选取肤色作为人手分割的主要依据。采用一种称作 CP(ColorPredicate)的数据结构进行肤色鉴别。CP可以视为一种新定义的颜色空间,是一个三维的坐标系。 X轴代表色调H(Hue),Y轴代表饱和度S(Saturation),Z轴采取一种二值逻辑,表征对应于该色调和饱和 度的像素点是否是肤色点。首先通过交互式训练的方式对CP进行构建,然后用CP去处理一幅未知图片, 区分背景点与肤色点。 手 语 翻 译 技 术 四 川 大 学 谢 澎 涛 获取若干幅包含人手的图片,然后采用人工标注的方法,对手和背景进行区分。用图像处理软件 PHOTOSHOP将手的区域标注为黑色,将背景区域标注为白色。这样,一幅原始图片和与其相对应的处理 之后的图片形成一组训练样本。 训练算法: 首先构造一个1000乘1000的二维数组CP,每一个数组元素初始化为0。 对于每一组训练样本,首先将原始图片从RGB颜色空间转换为HSI颜色空间。去除I分量,只保留H 和S分量。在图片中H和S的值为0-1之间的数,为便于处理,我们给H和S乘以1000,形成新的H和S。 对于属于手的每一个像素点(即人工标注为黑色的点),获取其H和S分量,然后用(H,S)点对去检索先前 构造的二维数组,数组元素的值加1。例如,手内有一个像素点的H值为245,S值为124,则CP[245][124]= CP[245][124]+1; 对于属于背景的每一个像素点(即人工标注为白色的点),获取其H和S分量,然后用(H,S)点对去检 索先前构造的二维数组,数组元素的值减1。例如,背景中有一个像素点的H值为567,S值为234,则 CP[567][234]= CP[567][234]-1; 处理完训练样本图片中所有的点,则一个CP就构造好了。 CP人手分割算法: 对于每一幅待分割的图片,首先将其颜色空间由RGB转换为HIS。同样,为便于处理,所有的H和S 扩大1000倍。 对于图片中的每一个像素点,获取其H和S的值,用H和S去检索CP,若CP[H][S]0,则该像素属于 手;若CP[H][S]0,则该像素属于背景。 1.2去除背景噪声 采用CP方法对手的肤色点进行提取时,无可避免的会产生来自背景的噪声。背景中的非肤色点的色 调与饱和度对应于CP中的z值很有可能是大于0的,导致系统将非肤色点判断为肤色点。 去除背景噪声的一个有效方法是求取最大连通区域。一幅原始图片经 CP处理过后,系统判定为肤色 的像素点会被标记为白色。这些白色的像素点会形成一个个连通区域,而最大的连通区域一定对应于手。 因此,只保留最大连通区域中的像素点,滤除不属于最大连通区域的白色像素点就能达到去除噪声的目的。 1.3特征提取 将手从背景中分割出来之后,需要对其进行特征提取。提取的特征必须能够很好的描述手的状态,同 时具备较低的算法复杂性。基于上述两个标准,我们选择位置、形状、大小、角度四个特征。 位置 用手的质心来描述手的位置。 经过“手的分割”处理之后,得到二值图像。在此二值图像的基础上,采用下面的公式计算手的质心: 手 语 翻 译 技 术

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档