研究分析低速率语音压缩编码对语音识别系统影响.docVIP

下载本文档

4
0
约4.7千字
约 10页
2018-09-16 发布于福建
举报
版权申诉

研究分析低速率语音压缩编码对语音识别系统影响.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究分析低速率语音压缩编码对语音识别系统影响

研究分析低速率语音压缩编码对语音识别系统影响　　摘要：本文通过对低速率语音压缩编码对语音识别系统的影响进行分析，从而了解在当前语音识别技术不断快速发展的大背景下，如何能够更好地提升语音压缩编码的水平。低速率语音压缩编码会对系统的语音识别产生很大的影响，本文通过对三种语音压缩编码器进行分析，既比较了三者对语音识别产生的不同影响，又对其语音识别效果进行了分析。　　关键词：低速率语音压缩编码；语音识别系统；影响　　随着改革开放以来我国经济社会的不断快速发展，语音识别系统广泛地运用于各个领域。语音识别系统随着多媒体技术的不断发展，既面临着机遇同时也面临着挑战。在整个语音识别系统中，语音压缩编码占有十分重要的地位，语音压缩编码的水平直接决定了语音识别系统的效果。因此，我们对目前使用较多的几种语音压缩编码算法进行了分析，从而对低速率语音压缩编码对语音识别系统的影响有一个基本的了解。　　一、研究背景阐述　　通过对语音识别系统进行分析，结果表明：当前语音压缩编码速率的逐渐下降，会造成编码后的语音识别率有所下降。之所以出现这种情况，主要是由于在低速率条件下，单位时间内所能描述的语音信息量会有所减少，因而必然会导致语音质量下降以及语音形式失真。　　想要提升编码效率，降低编码速率，唯一能够采用的就是参数编码方式。一些相关领域的研究人员对无线通信环境下的中低速率语音编码进行研究，结果是：如果采用低速率语音压缩编码（如2.4kbps），那么其合成出的声音不会影响接受者的理解，但是会造成一些信息的流失。因此，在低速率语音压缩编码的条件下，其合成语音能否被语音识别系统理解，既是一个亟需解决的问题，同时也是一项重要的研究项目。　　二、低速率语音编码算法分析　　（一）LPC-10算法　　通常来说，在2.4kbps速率的情况下，能够对表述信息量的语音信号十分有限，因而想要做到准确描述语音波形，难度很大。基于这种情况，目前语音压缩编码采用较多的是分帧提取参数法。　　对于语音识别系统来说，首先要对其进行参数的提取，即将语音信号分为若干帧提取参数，之后通过对提取参数和模型进行对比，从而确定识别结果。对于不同的语音编码来说，提取的参数也是不同的，但是有一点是相同的，即所提取的参数通常都是由两大部分构成的，即声道参数和激励参数。　　对于语音识别系统来说，编码好坏的判断标准主要是声音的还原程度。即通过对语言信号进行压缩编码，从而生产出合成语音，而且合成语音要尽量做到高保真。因此，以下主要通过对各种低速率语音压缩编码器进行分析，来确定各种技术可能对语音识别系统产生的影响。　　要分析低速率语音压缩编码，就必须要提到一种使用十分广泛的语音压缩编码算法――LPC-10算法，LPC-10算法在上个世纪70年代就已经作为美国语音编码的标准而被广泛采用了。LPC-10算法原理并不复杂，简单来说，就是将线性预测系数当作声道的模型、将周期脉冲当作浊音的激励信号、将白噪声当作清音的激励信号。从LPC-10算法的原理能够看出，对于LPC-10算法来说，参数的提取十分重要，只有做到对参数的准确提取，才能保证合成之后语音的质量。　　LPC-10算法的优势在于其合成之后语音的质量比较高，但是，LPC-10算法也有一个较为显著的缺点，主要是由于其固有模型决定的。LPC-10算法的固有模型――二元激励模型会对语音的自然度产生很大的影响。　　除此之外，LPC-10算法虽然适用的范围较广，但是由于其声道模型为全极点模型，因此对于一些特殊的语音信号并不适用，例如一些鼻音、擦音等等语音信号则并不适用于LPC-10算法。而且，在实际的低速率压缩编码过程中，LPC-10算法采用的是10阶的预测系数，导致其对语音谱的描述不够精确。　　（二）MELP算法　　MELP算法以LPC-10算法为基础，不同于LPC-10算法的是：MELP算法引入了诸如：混合激励、非周期脉冲、自适应谱增强、脉冲扩散、傅里叶系数等等新的特点。在这些新特点中，最为重要的就是“混合激励”。混合激励，简单来说就是通过对语言进行分类，从而将其分为五个固定频带，然后分别对各个频带进行清浊音的判别，最后根据判别结果，进行语音合成，将各频带合成之后的语音进行相加，从而得到重建语音。　　MELP算法相对LPC―10算法来说，由于其混合激励的特点，在语音的自然度方面有了很大的提升，而且提升了合成语音的听觉质量。除此之外，在声道参数方面，MELP算法采用的是线谱对（LSP）参数，相比LPC―10算法来说，既代替了原有的线性预测系数，又提高了低速率语音压缩编码的效率。虽然线谱对（LSP）参数和线性预测参数两者本质上相同，但线谱对（LSP）参数更具稳定性和量化性能。而且MELP算法相比LPC―10算法