实用的家电语音控制系统的设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实用的家电语音控制系统的设计.doc

  实用的家电语音控制系统的设计|第1 摘要:家电语音控制系统在复杂的背景环境下,由于识别率显著下降而导致关键词检出率偏低。介绍了利用孤立词、连接词以及连续语音识别引擎构造的多识别引擎的识别器,该识别器允许用户自由选择语音输入方式,扩大了关键词的检出范围,从而达到提高关键词检出率的目的。同时给出了家电语音控制系统的整体结构,分析了影响系统性能的关键因素,并且给出了相应的解决方案。 关键词:语音识别 家电语音控制 语音确认 近年来,随着语音识别与确认技术的逐渐成熟,基于语音识别技术的对话控制系统受到了越来越多的关注。现有的语音技术虽然在实验室环境中取得取得了较好的识别效果,但是一旦由于环境或者说话人的客观原因使得语音信号变差时,就会导致系统检出率急剧下降,从而使得语音控制系统的性能变差甚至不能正常工作。 针对残疾人行动不便的问题,在日本富士通公司的资助下开发了一套残疾人利用语音进行家电控制的系统。本系统的用户主要是康复中心的特殊用户,由于身体长期瘫痪或者其它原因,他们不仅行动不便,而且语言交流能力也有很大程度的下降,尤其是发音不够清晰准确,仅仅用传统的语音识别器很难满足控制系统实际应用的需要。因此,提出了综合利用孤立词识别器、连接词识别以及连续语音识别器构建一个基于多识别引擎的识别器的方法,使得关键词被正确检出的可能性大大增加,在允许用户自由使用孤立或者连续语音交流的同时,还最大限度地利用不同识别引擎的优点,改善了家电语音控制系统的性能。 另外,还分析了语音控制系统中确认、模型自适应以及对话控制策略等关键技术,并且给出了相应的解决方案,从而给出家电语音控制系统的完整结构,在电梯、轮椅、电视等设备的实际控制中取得了良好的效果。 500)this.style.ouseg(this) 1 家电语音控制系统的结构 家电语音控制系统包括软件设计和硬件设计两部分。本文主要讨论软件设计部分,其中包括:语音识别模块、语音确认模块、对话控制及硬件指令传输模块以及模型自适应模块。整个系统的流程是:首先,用户的语音被送入语音识别模块进行Viterbi解码识别,得到相应的候选关键词;然后,将候选关键词送入语音确认模块进行确认,从中检出可能的关键词,并给出相应的确认分值;再后,根据检出的关键词及其对应的确认分值产生相应的对话或者控制命令对硬件进行控制,同时利用已经确认的语音对识别中的语音模型进行更新。图1给出了家电语音控制系统的结构图。 2 基于多识别引擎的识别器设计 2.1 传统识别引擎简介 根据待识别语音属于单一用户还是公众进行分类,可以将其分为特定人识别以及非特定人识别。由于设计目标是针对特定用户的,因此采用特定人识别器。如果根据输入语音特点以及建模方法进行分类,当前的识别引擎主要分为孤立词识别、连续语音识别以及连接词识别等引擎。下面分别介绍几种不同的识别引擎以及各自的优缺点。 2.1.1 孤立词识别引擎 由于孤立词识别引擎的输入是孤立的词汇,因此其识别范围小,建模精确,识别率高,非特定人的孤立词识别引擎的识别率可达95%左右,特定人的识别率甚至可达99%以上。但是孤立词识别引擎要求用户的输入必须是一个个独立的单词,显然对于连续的语音流无法处理。即使是独立的单词,如果由于用户的习惯或者生理原因,在语音中含有一些语气词或者其它高能量的突发噪声,将严重影响系统的识别率。 2.1.2 连续语音识别引擎 连续语音识别引擎是以音节或者音素为单位进行建模的,很好地解决了孤立词识别中对输入语音的限制,而且通过对常见的语气词以及噪声的建模,也能够解决由其引起的识别率下降的问题。但是连续语音的识别率很低,即使在实验室环境下,其识别率最高也只能达90%左右。显然连续语音识别引擎难以单独用于家电语音控制系统。 2.1.3 连接词识别引擎 连接词识别引擎介于孤立词识别引擎和连续语音识别引擎之间。它以孤立词为模型,通过对孤立词的拼接实现对连续语音流的识别。对于小型的语音识别系统来说,由于其词表较小,因此建模方便,而且建模精度高,对关键词的识别率接近于孤立词识别引擎,很好地解决了孤立词识别引擎无法解决的连续语音流问题。但是当输入语音流包含过多的音节时,其识别率不可避免地会下降很多。 用户在选择识别引擎的时候,主要需要考虑的因素包括:识别率、实时响应速度、鲁棒性、输入语音限制、使用舒适性等。 2.2 基于多识别引擎的识别器设计 通过对识别引擎的分析以及对传统识别引擎的介绍可以看到,无论单独选择哪种识别引擎,都不能够完善地满足实用的语音控制系统的要求,因此设计了一种多识别引擎的并行识别器,能够获得传统识别器无法兼得的优点。图2给出了基于多识别引擎的识别器结构图。 500)this.style.ouseg(this) 2.2.1 基于多识别引擎的识别器工作

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档