- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随着计算机在现代社会影响的迅速扩大,传统的基于鼠标和键
摘要
摘要
随着计算机在现代社会影响的迅速扩大,传统的基于鼠标和键盘的人机交
互技术越来越显示出它们的局限性,所以研究多模式人机接口技术在现实生活
中变得越来越重要。手语识别作为多模式人机接口领域的一项重要组成部分,
已经吸引了越来越多的专家和学者们的注意。手语识别的目标就是通过计算机
提供一种有效、准确的机制将手语翻译成文本或语音,使得聋人和听力正常人
之间的交流变得更方便、快捷。
手语识别目前所面临的主要挑战是如何建立合适的模型来解决非特定人、
大词汇量、连续手语,以及怎样利用语言模型来提高手语识别率这四个问题。
一个系统能够非常准确地识别非特定人、大词汇量、连续手语,而没有引入人
工的停顿,对于方便、自然的人机接口具有深远的影响。因此,对上述四个问
题的研究使得手语识别系统具有更强的鲁棒性和友好性,从而推动识别系统得
到更广泛的应用。
本文针对手语识别中的四个问题:非特定人、大词汇量、连续手语、如何
利用语言模型来提高手语识别率,分别建立合适的模型来解决这些问题:
1. 针对非特定人手语识别的特点:1)数据多且差异大,导致模型训练难
收敛;2)从不同人数据中提取出有效的共同特征缺乏,本文提出了自组织特征
映射/隐马尔可夫模型(SOFM/HMM)相结合的模型。该模型以 SOFM 隐式地
提取不同人特征作为连续 HMM 的输入,将数据变换成一个紧凑、重要的低维
表示形式,该形式能够更好地被 HMM 的发射概率模型化。它们的模型参数是
在统一的全局优化准则下训练得到的。实验结果表明,该模型比传统的 HMM
模型识别率提高近 3-5%,较好地解决了非特定人识别问题。
2. 为了克服大词汇量识别所带来的时间复杂性增加的困难,在
SOFM/HMM 模型的基础上,提出具有异构分类器的模糊决策树用于大词汇量
的手语识别。由于不同的特征对于手势词具有不同的模式区分性,因此,本文
提出了异构的分类器来分层决策手语的属性。基于高斯混合模型的单双手分类
器和基于有穷状态机的手形分类器首先被用来消除不可能的候选,然后在底层
仅包含很少一部分候选词集的非叶子节点上,使用 SOFM/HMM 方法进行分类。
实验结果表明,该方法在大词汇量非特定人手语识别中比单独使用 SOFM/HMM
方法大大减少了识别的时间,大约 11 倍,同时也相应地提高识别率 0.95%。
3. 在连续手语识别中,面临的主要挑战是如何减轻相邻手语词之间运动插
─ I ─
哈尔滨工业大学工学博士学位论文
入的影响。本文从基于分割和建立过渡模型的思想入手,分别提出基于精简循
环网/隐马尔可夫模型(SRN/HMM)相结合的模型和基于过渡模型的方法进行
连续手语识别。1)基 于 SRN/HMM 模型的方法是将连续手语识别问题分解成各
孤立词识别的分治方法。把改进的 SRN 作为连续手语的段边界检测器,SRN 的
分段结果作为 HMM 框架中的状态输入,在 HMM 框架里使用网格 Viterbi 算法
搜索出一条最佳的手语词路径。2)基于过渡模型的方法是将词与词之间的过渡
动作也建立相应的模型来进行识别。为了克服词与词之间大量的过渡模型,本
文提出了时序聚类算法,它能将相似的过渡动作聚成一类,从而增强过渡模型
的推广性,同时避免训练数据的稀疏问题。实验结果表明,基于过渡模型的方
法在大词汇量连续手语识别中取得了较好的效果。
4. 在统计语言模型中,如何将多种语言学知识融入到一个统一的框架下,
作为长距离的约束关系来提高手语识别率是一个挑战。本文提出了一个融入语
言学结构知识的改进最大熵语言模型。该模型把基本短语的结构知识与 Trigram
结合,Trigram 作为词之间短距离的约束,而用分析出基本短语的结构知识来表
示句法结构中长距离的约束关系;将语
文档评论(0)