[工学]语音信号处理第8章.ppt

下载文档 降价啦

2
0
约1.36万字
约 66页
2018-03-07 发布于浙江
举报
版权申诉
保障服务

[工学]语音信号处理第8章.ppt

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]语音信号处理第8章

8.1 概述 8.2 共振峰合成法 8.3 线性预测合成法 8.4 语音合成专用硬件简介 8.5 PSOLA算法合成语音 8.6 文语转换系统(TTS) 8.1 概述由人工制作出语音称为语音合成（Speech Synthesis）。语音合成研究的目的是制造一种会说话的机器，使一些以其他方式表示或存储的信息能转换为语音，让人们能通过听觉而方便地获得这些信息。语音合成的研究已有多年的历史，现在研究出的语音合成方法的分类，从技术方式讲可分为波形合成法、参数合成法和规则合成方法；从合成策略上讲可分为频谱逼近和波形逼近。波形合成法一般有两种形式，一种是波形编码合成，它类似于语音编码中的波形编解码方法，该方法直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储，合成重放时再解码组合输出。另一种是波形编辑合成，它把波形编辑技术用于语音合成，通过选取音库中采取自然语言的合成单元的波形，对这些波形进行编辑拼接后输出。参数合成法也称为分析合成法，是一种比较复杂的方法。为了节约存储容量，必须先对语音信号进行分析，提取出语音的参数，以压缩存储量，然后由人工控制这些参数的合成。规则合成法是一种高级的合成方法。规则合成方法通过语音学规则产生语音。合成的词汇表不是事先确定，系统中存储的是最小的语音单位的声学参数，以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。给出待合成的字母或文字后，合成系统利用规则自动的将他们转换成连续的语音声波。这种方法可以合成无限词汇的语句。 8.2 共振峰合成法共振峰语音合成器模型是把声道视为一个谐振腔，利用腔体的谐振特性，如共振峰频率及带宽，以此为参数构成一个共振峰滤波器。因为音色各异的语音有不同的共振峰模式，以每个共振峰频率及其宽带为参数，可以构成一个共振峰滤波器。将多个这种滤波器组合起来模拟声道的传输特性，对激励声源发生的信号进行调制，经过辐射即可得到合成语音。这便是共振峰语音合成器的构成原理。共振峰合成器的系统模型简单地将激励分成浊音和清音两种类型是有缺陷的。因此为了得到高质量的合成语音，激励源应具备多种选择，以适应不同的发音情况。图8-1中激励源有三种类型：合成浊音语音时用周期冲激序列；合成清音语音时用伪随机噪声；合成浊擦音时用周期冲激调制的噪声。在图8-1中，使用了两种声道模型，一种是将其模型化为二阶数字谐振器的级联；另一种是将其模型化为并联形式。这实际上就是2.5小节介绍的混合型共振峰模型。级联型结构可模拟声道谐振特性，能很好地逼近元音的频谱特性。采用二阶数字滤波器的原因是因为它对单个共振峰特性提供了良好的物理模型；同时在相同的频谱精度上，低阶的数字滤波器量化位数较小，所以在计算上也十分有效。而并联型结构能模拟谐振和反谐振特性，所以被用来合成辅音。高级共振峰合成器可合成出高质量的语音，几乎和自然语音没有差别。但关键是如何得到合成所需的控制参数，如共振峰频率、带宽、幅度等。而且，求取的参数还必须逐帧修正，才能使合成语音与自然语音达到最佳匹配。 8.3 线性预测合成法线性预测合成方法是目前比较简单和实用的一种语音合成方法。六十年代后期发展起来的LPC语音分析方法可以有效地估计基本语音参数。 LPC语音合成器利用LPC语音分析方法，通过分析自然语音样本，计算出 LPC系数，就可以建立信号产生模型，从而合成出语音。 LPC语音合成器图8-2所示的线性预测合成的形式有两种：一种是直接用预测器系数构成的递归型合成滤波器，其结构如图8-3所示用这种方法定期地改变激励参数和预测器系数，就能合成出语音。这种结构简单而直观，为了合成一个语音样本，需要进行p次乘法和p次加法。它合成的语音样本由下式决定：（8-1）其中，为预测器系数；G为模型增益；为激励；合成语音样本为；p为预测器阶数。直接形式的预测系数滤波器结构的优点是简单、易于实现，所以曾广泛被采用。其缺点是合成语音样本需要很高的计算精度。另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定：其中，G为模型增益；为激励；为反射系数；为后向预测误差；p为预测器阶数。采用反射系数的格型合成滤波器结构，虽然运算量大于直接型结构，却具有一系列优点：其参数具有∣∣＜1的性质，因而滤波器是稳定的；同时与直接结构形式相比，它对有限字长引起的量化效应灵敏度较低。在实际进行语音合成时，除了构成合成滤波器之外，还必须在有浊音的情况下，将一定基音周期的脉冲序列作为音源；在清音的情况下，将白噪音作为音源。而且，必须进行浊音/清音的