混合激励线性预测(MELP)编码方法研究及在商业规范化服务中应用.docVIP

下载本文档

0
0
约3.46千字
约 8页
2018-06-01 发布于福建
举报
版权申诉

混合激励线性预测(MELP)编码方法研究及在商业规范化服务中应用.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

混合激励线性预测(MELP)编码方法研究及在商业规范化服务中应用

混合激励线性预测(MELP)编码方法研究及在商业规范化服务中应用　　一、引言　　　　从20世纪90年代开始，人类开始进入信息社会，也称信息化社会。信息作为继物质和能源之后的第三资源，在商业发展中起着主导作用。语音是人们交流信息的主要手段之一，用数字化的方法进行语音的传送、存储、识别、合成等构成了目前商业应用中最重要、最基本的组成部分之一。也正因为信息化社会的高速发展，媒介资源、存储资源也就显得更加宝贵。因此，压缩语音信号的传输带宽一直是人们追求的目标。在贝尔实验室的Homer Dudley于1939年发明了第一个声码器之后，语音压缩编码技术进入了一个新的时代。CCITT已经制订了几个国际化的语音编码标准，这些标准规范并推动了语音编码的研究，但是也可以看出这些标准的编码速率都比较高；而美国联邦标准LPC-10以及LPC-10e尽管能够在2.4kbps合成出清晰可懂的语音,但合成语音在自然度等方面并不令人满意。MELP是Alan V. McCree等人提出的，是在原来LPC基础上，吸收了多带激励以及原型波形内插等编码方法的思想发展起来的，使得编码方法更好的利用语音的发音机制，可以在低速率下得到较高质量的语音。　　　　二、LPC方法的缺点及MELP方法概述　　　　混合激励模型主要是在二元激励的基础上，针对二元激励模型存在的一些问题做了相应的改进。由于二元激励模型中浊音采用周期脉冲作为激励，清音采用白噪声作为激励，所以它具有很多的缺点: 　　1.语音分类太粗糙，激励信号只有两种选择，要么是随机噪声，要么是周期性的脉冲。但人的发声器官并没有那么简单，实际情况是在大多数语音帧中既含有浊音成分又含有清音成分，把既含有浊音又含有清音的语音帧按周期性激励源合成，非周期能量没有得到恢复，主观听觉上会感觉合成语音有明显的“嗡嗡”声;反过来，如果将含有浊音的激励源按噪声激励源合成，听起来就会感觉语音嘶哑。　　2.在一帧内采用固定的基音周期不能精确的描述语音激励。由于语音信号的时变特性，即使是在一帧语音内，基音周期也并非一成不变的。把一帧合成语音的周期作为固定值处理进行语音合成的时候，会失去原始语音的周期性，引入过强的周期性，造成蜂鸣声。　　3.在浊音的时候采用简单的周期信号不能刻画激励信号的形状，会失去很多说话人的特征。这是因为在每个周期内不仅只有一个主脉冲，还有很多辅助的脉冲，这些脉冲对体现说话人的特征和提高自然度是很重要的，而二元激励的方法则忽略了这些信息。　　由于上面的原因，经典二元激励LPC声码器的合成语音可以使人明白谈话的内容，但是它的自然度很差，带有很重的金属声和卡嚓声，难以辨别说话人，主观听觉质量不好。　　鉴于上面LPC模型中存在的一些缺陷，在后来的ME模型中有针对性的进行了改进。对于LPC中对语音的分类和激励过于简单的问题，ME模型采用了周期脉冲和白噪声的混合激励；对于帧内基音周期的时变特性，把语音分为浊音、清音和抖动浊音，对于抖动浊音采用了非周期的脉冲激励;针对二元激励LPC忽略了激励信号的形状信息，在ME模型中编码了激励信号的傅立叶谱的幅度。而且，ME模型还加入了脉冲散布滤波器和自适应谱增强滤波器来提高语音质量，下面我们就来看一下ME模型中的几个新特征。　　　　三、MELP方法中的新特征　　　　1.混合脉冲和噪声激励。MELP算法采用多带混合激励模型。语音被分为5个固定的频带0Hz～500Hz,500Hz～1000Hz,1000Hz～2000Hz,2000Hz～3000Hz, 3000Hz～4000Hz,在每个子带上分别对语音进行浊音强度(Voice strength)的计算,依据其浊音强度和基音搜索的结果来判断该子带语音是清音、浊音还是抖动浊音。合成时,根据各子带的属性和浊音强度对通过该子带滤波器的噪声、周期脉冲和非周期脉冲进行加权求和,作为激励。采用混合激励,可以减少合成语音中的蜂鸣声。　　2.非周期脉冲。混合脉冲和噪声激励可以消除LPC声码器的嗡嗡声，但是总是无法消除一些孤立的，短暂的音调，会产生一些类似电流声的单音噪声。这是由于在清/浊的过渡段声门脉冲不是很稳定，从而导致激励没有严格的周期性。在过去的LPC方法中，这些都是当作浊音来处理，从而会引进一些很奇怪又很刺耳的音调。在ME模型中，针对这个问题，对基音周期进行抖动，抖动的幅度服从以基音幅度的±25%为上下限的均匀分布。这样就打破了激励信号的严格的周期性，很好的描述了在声门激励不稳定的时候产生的脉冲的特性。　　由于这种抖动如果加在强浊音帧的激励中的话，就会破坏语音的周期性，也就是破坏了该帧激励的惟一的参数――基音周期，会使得语音质量急剧变坏，这也是引入抖动浊音这一分类的根本原因。所以要准确的判断，是