基于关键词识别的语音到手势的转换探究.docVIP

下载本文档

6
0
约4.81千字
约 10页
2017-02-19 发布于河北
举报
版权申诉

基于关键词识别的语音到手势的转换探究.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关键词识别的语音到手势的转换探究

基于关键词识别的语音到手势的转换探究　1 引言　　我国听力语言障碍者的人数已约略2 780 万人，占据中国人口总数的2.14%。对于聋哑人来说，手势是他们进行人际交流和正常生活、工作的一种重要工具。因此，手势的合成对健全人与听力言语障碍者的正常沟通和交流具有重要的作用。近些年来，基于计算机视觉的手语合成[1]以其独特的交互方式受到科研人员越来越多的重视，是现在手语合成研究的热点。其中，文献主要是通过VC 和SQL 数据库的无缝连接，设计开发了以数据手套为基础的言语残障患者医疗辅助系统，它具体是利用单只数据手套采集聋哑人手语的完整信息，并在预先建立的手语翻译信息对比数据库中查询、搜索，接着依据手语的新定义方式，采用特定的显示办法将查询、搜索得到的手势图片重现，进而完成手语的合成;文献是基于运动跟踪的方法，通过数据手套开发、利用人体上肢运动的采集程序对手势进行实时采集，接着，在手语编辑系统中运用控制点操作的办法对这些手语进行处理，然后将其虚拟显示，完成手语合成系统的实现。然而，目前现有的研究大多都只针对手语合成的问题展开研究，并没有考虑到聋哑人与正常人之间的交流沟通问题，忽视了让听力障碍者能够“听到声音”的情况，缺乏语音到手势的转换研究。　　在语音识别技术的持续发展中，从特定人孤立词语音识别到非特定人连续语音识别的研究，其识别的算法已日趋成熟，但在语音到手势转换方面的研究还有所欠缺。文献利用Speech SDK 语音识别系统，以及虚拟人模型的运动控制方法，基本实现了语音到手势的转换演示，但其识别精度不高，视觉应用上存在一定的缺陷。正常人与聋哑人交流的关键在于能够让聋哑人理解正常人表达的关键意思，本文将关键词识别与手势合成相结合，提出了一种语音关键词到聋哑人手语手势的转换方法，建立了《中国手语》中数字、字母等手语的三维手势模型，采用关键词识别技术识别出语音信号中包含的手语关键词，利用OpenGL 播放对应的手势，从而实现了语音到手势语的转换。语音信号的识别，以及经过语音分析，提取并建立的手势与语音相对应的文本字典将语音识别与手势模型的重现过程结合起来，实现了语音到静态手势的转换。实验结果显示，本文提供的方法在字母、数字等语音关键词的识别效果上可以达到90.1%，在合成手势的可懂度上，其平均主观评定得分(Mean Opinion Score，MOS)为4.4 分，能够直接用于健全人与聋哑人相互间的正常沟通。　　2 语音到手势转换的总体框图　　语音到手势的转换主要由字母、数字和常用字词等关键词定义的手势的三维手势建模过程，关键词识别过程，手势模型的播放过程三部分组成。首先，根据《中国手语》中哑语字母、数字和常用词汇定义的手势，采用三维建模工具3DS MAX建立了这些手语词汇对应的静态三维手势模型。对输入的语音信号，采用基于HMM的关键词识别方法识别出语音信号中包含的字母、数字和常用词汇等关键词;最后根据识别的结果，采用OpenGL图形库函数播放出关键词对应的手势。从而实现语音到手势的转换。　　3 基于HMM的关键词识别　　关键词识别(Keyword Spotting，简称为KWS)指能够在说话人的连续语音信号中区别和肯定表达其话语(可能是大多另外的词，也可能是说话人的非话语语音和说话时的背景语音等)中关键信息的少量特定词。关键词识别包括关键词检出(keyword identification)、关键词确认(keyword verification)两个基本步骤。关键词检出通常是判别输入的语音信号是否包括有事先确定的语音关键词，而关键词确认主要是判定输入的语音信号是否是假定的语音关键词。目前，关键词识别通常采用基于隐马尔可夫模型(Hidden Markov Model，HMM)的关键词识别技术。　　3.1 关键词检出　　关键词识别中最紧要的一步就是关键词检出，它主要是通过最优路径搜索算法来得出每一待选语音关键词与输入语音信号的匹配百分比。因此，从待选的语音关键词中抽取一个，使它和连续语音中某一处信息的后验或然率可以达至峰值，是关键词检出的目的。　　3.2 关键词确认　　由于在关键词检出步骤中所得到的待选语音关键词，不能明确肯定它就包括在待识别的连续语音信号中，因此，必须要通过关键词的确认过程来断定它是否真的就存在于语音信号中。而通常采用的确认办法就是把维特比解码时最优路径的平均百分比作为确认的前提条件，唯平均百分比是在特定临界域的判定为关键词。具体地来讲，一般的关键词确认方法大多都采用基于统计假设检验的办法，而对照零假设H0 和备择假设H1 所得比值的差异性大小就是它的基本依据。　　3.3 关键词识别算法　　隐马尔可夫模型理论具有双重随机性，这里，采用