第八章孤立词语音识别系统.PDFVIP

下载本文档

57
0
约3.64千字
约 3页
2018-11-17 发布于天津
举报
版权申诉

第八章孤立词语音识别系统.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八章孤立词语音识别系统.PDF

北京邮电大学博士研究生学位论文第八章孤立词语音识别系统语音识别技术经过几十一年的飞速发展，己经达到较高的水平，全球范围内IF. 在兴起语音识别技术研究的热潮，并有许多实用的语音识别系统投入商用，包括孤立词语音识别系统和连续语音识别系统。但由于人的发话方式和环境噪声的影响，连续语音识别系统大都工作在受限条件下，例如办公环境下的专用文本标准语音听写识别等等，而孤立词语音识别将话者发音限制在孤立词方式，而且中小同汇量的孤立词识别系统具有一定的抗噪性。另外，对于许多应用米说，并不需要很复杂的识别能力，它只要能够识别出一组词71_或命令就可以了。因此，同连续语音识别系统相比，中小词汇量的孤立词语音识别系统的应用更为广泛一些。针对一个具体的应用设计语音识别系统时，根据识别任务的不同，我们可以采用不同的识别器和不同的系统构筑方法。对于中小词汇量的孤立词语音识别系统来说，识别任务的区别主要在于识别的内容、话者及应用环境的不同。识别内容是指要识别的孤立词的集合，它可以是特定内容，也可以是非特定内容，所谓特定内容是指系统一旦完成，识别内容将不能再更改，而非特定内容是指在系统建立后，仍然可以很方便地加入新的词条，特定内容的系统可以在构筑系统时采集大量的数据来进行训练，而非特定内容的系统则比较困难。话者包括特定人和非特定人，特定人是指系统只针对一个用户的，而非特定人是针对任何人。应用环境，包括软硬件环境，以及环境噪声的影响，噪声比较复杂，我们这里只结合具体应用讨论软硬件环境的影响。 8.1基于!SAW的手机人名声控拨号系统人名声控拨号，即用户在拨号时.只需口呼姓名，由手机通过识别出其姓名来查找与该姓名对应的电话号码，并自动拨出去。由于每一个人的电话号码薄各不相同，号码薄的大小最多几百个，而常用的一般也只有几十个，加上手机的个人性，因此这是一个典型的非特定内容、特定人的、中小词汇量孤立词语音识别系统。 8.1.1系统模型建立木系统最大的难点在于要在手机上应用这一实际限制，因为手机一般都很小巧，用户使用环境复杂，所以在具体实现时，识别算法不能太复杂，占用存储空间也不可能太多，还要适应不同的使用环境。因而在建立系统时，要遵循简单、高效的原则，在保证系统具有高识别率、高识别速度的前提下，增强系统的鲁棒性，减少系统对存储空间的占用。第八章孤I).词语音识别系统本系统由四部分组成，即预处理、训练、识别和自动拨号。 1、预处理预处理的主要功能是采集话音、降噪处理、进行端点检测，为后序处理提供数据。预处理的好坏直接影响到系统的识别率及鲁棒性。鲁棒性好，是指系统性能不会随着用户及使用条件的差异而有所改变或变化很小。针对手机，影响鲁棒性的主要因素是手机应用环境的多样性，比如办公室、马路上、汽车里等等:不同的环境会存在不同的噪声干扰。噪声的影响对于识别系统是非常显著的，Dautrich.Rabiner与Matin等人研究证明，一个在无噪声条件下训练，并具备95%识别率的孤立数字识别系统，如果在信噪比为 18dB的噪声干扰下，误识率大约增加了一个数量级111(21。使用性能好一些的话筒，可以减少一些噪声的影响，但这是有限的，最好能够采用一些降噪措施。因而采用何种方法能够高效的去除语音信号中的噪声(环境噪声和干扰、他人语音、麦克风引入干扰等)，对于提高系统的鲁棒性是非常重要的。在本系统中，只去除直流分量，就使误识率降低两个百分点。端点检测主要是检测出语音的有声段和无声段，本文采用短时平均能量参数和过零率参数。 2、训练训练的主要任务是提取语音特征，形成模板。采用的特征是LPC倒谱、一阶差分倒谱、能量及一阶差分能量。LPC参数通过Durbin算法求出，进而求出LPC 倒谱参数[3[ 在整个系统中，所需的存储空间主要是用来存储模板特征的，所以如何减少存储空间而又不影响识别率，是训练所要解决的一个问题。从识别过程来看，由于本系统采用分级的识别方法，在粗分识别中只使用LPC倒谱特征，只在细分识别时才使用一阶差分倒谱特征，因而可以只提取LPC倒谱特征，而一阶差分倒谱特征则在细分时由倒谱特征求出，这样可以减少存储一阶差分特征的空间。其代价是增加一些计算开销，但由于细分的搜索范围不大，在5-10个之间，计