第八章孤立词语音识别系统.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章孤立词语音识别系统.PDF

北京邮电大学博士研究生学位论文 第八章 孤立词语音识别系统 语音识别技术经过几十一年的飞速发展,己经达到较高的水平,全球范围内IF. 在兴起语音识别技术研究的热潮,并有许多实用的语音识别系统投入商用,包括 孤立词语音识别系统和连续语音识别系统。但由于人的发话方式和环境噪声的影 响,连续语音识别系统大都工作在受限条件下,例如办公环境下的专用文本标准 语音听写识别等等,而孤立词语音识别将话者发音限制在孤立词方式,而且中小 同汇量的孤立词识别系统具有一定的抗噪性。另外,对于许多应用米说,并不需 要很复杂的识别能力,它只要能够识别出一组词71_或命令就可以了。因此,同连 续语音识别系统相比,中小词汇量的孤立词语音识别系统的应用更为广泛一些。 针对一个具体的应用设计语音识别系统时,根据识别任务的不同,我们可以 采用不同的识别器和不同的系统构筑方法。对于中小词汇量的孤立词语音识别系 统来说,识别任务的区别主要在于识别的内容、话者及应用环境的不同。识别内 容是指要识别的孤立词的集合,它可以是特定内容,也可以是非特定内容,所谓 特定内容是指系统一旦完成,识别内容将不能再更改,而非特定内容是指在系统 建立后,仍然可以很方便地加入新的词条,特定内容的系统可以在构筑系统时采 集大量的数据来进行训练,而非特定内容的系统则比较困难。话者包括特定人和 非特定人,特定人是指系统只针对一个用户的,而非特定人是针对任何人。应用 环境,包括软硬件环境,以及环境噪声的影响,噪声比较复杂,我们这里只结合 具体应用讨论软硬件环境的影响。 8.1基于!SAW的手机人名声控拨号系统 人名声控拨号,即用户在拨号时.只需口呼姓名,由手机通过识别出其姓名 来查找与该姓名对应的电话号码,并自动拨出去。由于每一个人的电话号码薄各 不相同,号码薄的大小最多几百个,而常用的一般也只有几十个,加上手机的个 人性,因此这是一个典型的非特定内容、特定人的、中小词汇量孤立词语音识别 系统。 8.1.1系统模型 建立木系统最大的难点在于要在手机上应用这一实际限制,因为手机一般都 很小巧,用户使用环境复杂,所以在具体实现时,识别算法不能太复杂,占用存 储空间也不可能太多,还要适应不同的使用环境。因而在建立系统时,要遵循简 单、高效的原则,在保证系统具有高识别率、高识别速度的前提下,增强系统的 鲁棒性,减少系统对存储空间的占用。 第八章孤I).词语音识别系统 本系统由四部分组成,即预处理、训练、识别和自动拨号。 1、预处理 预处理的主要功能是采集话音、降噪处理、进行端点检测,为后序处理提供 数据。预处理的好坏直接影响到系统的识别率及鲁棒性。 鲁棒性好,是指系统性能不会随着用户及使用条件的差异而有所改变或变化 很小。针对手机,影响鲁棒性的主要因素是手机应用环境的多样性,比如办公室、 马路上、汽车里等等:不同的环境会存在不同的噪声干扰。噪声的影响对于识别 系统是非常显著的,Dautrich.Rabiner与Matin等人研究证明,一个在无噪声条 件下训练,并具备95%识别率的孤立数字识别系统,如果在信噪比为 18dB的噪 声干扰下,误识率大约增加了一个数量级111(21。使用性能好一些的话筒,可以减 少一些噪声的影响,但这是有限的,最好能够采用一些降噪措施。因而采用何种 方法能够高效的去除语音信号中的噪声(环境噪声和干扰、他人语音、麦克风引 入干扰等),对于提高系统的鲁棒性是非常重要的。在本系统中,只去除直流分 量,就使误识率降低两个百分点。 端点检测主要是检测出语音的有声段和无声段,本文采用短时平均能量参数 和过零率参数。 2、训练 训练的主要任务是提取语音特征,形成模板。采用的特征是LPC倒谱、一阶 差分倒谱、能量及一阶差分能量。LPC参数通过Durbin算法求出,进而求出LPC 倒谱参数[3[ 在整个系统中,所需的存储空间主要是用来存储模板特征的,所以如何减少 存储空间而又不影响识别率,是训练所要解决的一个问题。从识别过程来看,由 于本系统采用分级的识别方法,在粗分识别中只使用LPC倒谱特征,只在细分 识别时才使用一阶差分倒谱特征,因而可以只提取LPC倒谱特征,而一阶差分 倒谱特征则在细分时由倒谱特征求出,这样可以减少存储一阶差分特征的空间。 其代价是增加一些计算开销,但由于细分的搜索范围不大,在5-10个之间,计

文档评论(0)

duyingjie1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档