语音合成的原理及分类课件.pptVIP

下载本文档

8
0
约4.65千字
约 51页
2016-07-19 发布于河南
举报
版权申诉

语音合成的原理及分类课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章语音合成 ;9.1 概述; 在语音合成技术发展中，早期研究主要是采用参数合成方法。 1990年提出的基音同步叠加PSOLA方法，使基于时域波形拼接方法合成的语音音色和自然度大大提高。我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。;9.2 语音合成的原理及分类 ; 另一种波形合成法是波形编辑合成，它把波形编辑技术用于语音合成，通过选取音库中采取自然语言的合成单元的波形，对这些波形进行编辑拼接后输出。它采用语音编码技术，存储适当的语音基元，合成时，经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。 ;9.2.2 参数合成法; 参数合成方法的优点：音库一般较小，并且整个系统能适应的韵律特征的范围较宽，这类合成器???特率低，音质适中。缺点：算法复杂，参数多，并且在压缩比较大时，信息丢失亦大，合成出的语音总是不够自然、清晰。为了改善音质，近几年发展了混合编码技术，以改善激励信号的质量。;9.2.3 规则合成法;9.2.3 规则合成法;项目;9.3 共振峰合成法;9.3 共振峰合成法;9.3.1 级联型共振峰模型;激励源;9.3.2 并联型共振峰模型; 上式可分解成以下部分分式之和：其中Al为各路的增益因子。 ;下图就是一个M=5的并联型共振峰模型。;9.3.3 混合型共振峰模型;混和型共振峰模型如下图所示：; 对于共振峰合成器的激励，简单地将其分为浊音和清音两种类型是有缺陷的，为了得到高质量的合成语音，激励源应具备多种选择，以适应不同的发音情况。混和型共振峰模型中激励源有三种类型：合成浊音语音时用周期冲激序列；合成清音语音时用伪随机噪声；合成浊擦音语音时用周期冲激调制的噪声。 ; 共振峰合成技术弱点：（1）由于它是建立在对声道的模拟上，因此，声道模型的不精确势必会影响其合成质量。（2）实际工作中共振峰模型并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。（3）共振峰合成器控制十分复杂，实现起来十分困难。 ;9.4 线性预测参数合成法; 线性预测合成的形式有两种：一种是直接用预测器系数构成的递归型合成滤波器，用这种方法定期地改变激励参数u(n)和预测系数，就能合成出语音。它合成的语音样本由下式决定: 其中：ai为预测系数；G为模型增益；u(n)为激励；合成样本为s(n)；p为预测器阶数。;图9.6 直接用预测器系数ai构成的合成滤波器 ; 另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定: ; LPC语音合成和共振峰语音合成比较：（1）LPC语音合成有比较简单和完全自动的分析步骤，合成器结构也比较简单，采用格形滤波器时，量化特性和稳定性都比较好，硬件实现容易；而共振峰合成需要较多的参数调整，合成器结构相对讲要复杂些。（2）共振峰合成原理和实际发声原理联系紧密，它的模型控制参数对合成语音谱特性的影响比较直观。LPC合成中，控制LPC系数的变化轨迹十分有限。; （3）共振峰语音合成比较灵活，允许简单地变换以模仿不同人的发音，通过共振峰频率的移动，容易改变语声中和讲话人特征有关的部分；LPC合成较困难，只有将LPC的反射系数转变成极点的位置，才有可能作类似的修正。（4）线性预测方法对谱包络谷点的模型要比峰点差得多，因此共振峰带宽的估计一般是不合适的；共振峰合成方法中，共振峰的带宽还可以从离散傅里叶变换谱来估计。 ;（5）标准LPC的全极点模型，对具有零点谱特性的那些音，特别是鼻音，效果比较差；共振峰合成方法则可以采用反谐振器来直接模拟鼻音中最重要的频谱零点，使得合成语音音质得以提高。（6）从总体上说，选择LPC语音合成还是共振峰合成，基于二个因素的折衷；LPC合成具有简单，可自动进行系数分析的优点；而比较复杂的共振峰合成可望产生较高质量的合成语音。 ;9.5 基音同步叠加法; 由于韵律修改所针对的侧面不同，PSOLA算法的实现目前有3种方式。分别为：时域基音同步叠加TD-PSOLA 线性预测基音同步叠加LPC-PSOLA