语音合成的原理.pptVIP

下载本文档

257
0
约8.14千字
约 51页
2017-05-14 发布于湖北
举报
版权申诉

语音合成的原理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音合成的原理

4.音长问题音长也是语音的重要特征之一，对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在韵母的调型段长度上，调长和调型是密切相关的，通常认为，上声音节最长，阴平、阳平次之，去声最短。除音长外，音节之间的间隙也对合成语音效果有一定的影响，适当的间隙会使语言听起来更为生动。 * 混和型共振峰模型如下图所示：图9.4 混和型共振峰模型 * 对于共振峰合成器的激励，简单地将其分为浊音和清音两种类型是有缺陷的，为了得到高质量的合成语音，激励源应具备多种选择，以适应不同的发音情况。混和型共振峰模型中激励源有三种类型：合成浊音语音时用周期冲激序列；合成清音语音时用伪随机噪声；合成浊擦音语音时用周期冲激调制的噪声。 * 共振峰合成技术弱点：（1）由于它是建立在对声道的模拟上，因此，声道模型的不精确势必会影响其合成质量。（2）实际工作中共振峰模型并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。（3）共振峰合成器控制十分复杂，实现起来十分困难。 * 9.4 线性预测参数合成法是一种“源滤波器”模型，由白噪声序列和周期脉冲序列构成的激励信号，经过选通、放大并通过时变数字滤波器，就可以再获得原语音信号。图9.5 LPC语音合成器的框图 * 线性预测合成的形式有两种：一种是直接用预测器系数构成的递归型合成滤波器，用这种方法定期地改变激励参数u(n)和预测系数，就能合成出语音。它合成的语音样本由下式决定: 其中：ai为预测系数；G为模型增益；u(n)为激励；合成样本为s(n)；p为预测器阶数。 * 图9.6 直接用预测器系数ai构成的合成滤波器 * 另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定: 其中：G为模型增益；u(n)为激励；ki为反射系数； bi(n)为后向预测误差；p为预测器阶数。 * LPC语音合成和共振峰语音合成比较：（1）LPC语音合成有比较简单和完全自动的分析步骤，合成器结构也比较简单，采用格形滤波器时，量化特性和稳定性都比较好，硬件实现容易；而共振峰合成需要较多的参数调整，合成器结构相对讲要复杂些。（2）共振峰合成原理和实际发声原理联系紧密，它的模型控制参数对合成语音谱特性的影响比较直观。LPC合成中，控制LPC系数的变化轨迹十分有限。 * （3）共振峰语音合成比较灵活，允许简单地变换以模仿不同人的发音，通过共振峰频率的移动，容易改变语声中和讲话人特征有关的部分；LPC合成较困难，只有将LPC的反射系数转变成极点的位置，才有可能作类似的修正。（4）线性预测方法对谱包络谷点的模型要比峰点差得多，因此共振峰带宽的估计一般是不合适的；共振峰合成方法中，共振峰的带宽还可以从离散傅里叶变换谱来估计。 * （5）标准LPC的全极点模型，对具有零点谱特性的那些音，特别是鼻音，效果比较差；共振峰合成方法则可以采用反谐振器来直接模拟鼻音中最重要的频谱零点，使得合成语音音质得以提高。（6）从总体上说，选择LPC语音合成还是共振峰合成，基于二个因素的折衷；LPC合成具有简单，可自动进行系数分析的优点；而比较复杂的共振峰合成可望产生较高质量的合成语音。 * 9.5 基音同步叠加法基音同步叠加PSOLA算法核心思想：直接对存储于音库中的语音运用PSOLA算法进行拼接，从而整合成完整的语音。该系统首先要在大量语音库中，选择最合适的语音单元用于拼接，并且在选择语音单元的过程中往往采用多种复杂的技术，最后在拼接时，使用PSOLA算法，根据上下文的要求，对其合成语音的韵律特征进行修改。 * 由于韵律修改所针对的侧面不同，PSOLA算法的实现目前有3种方式。分别为：时域基音同步叠加TD-PSOLA 线性预测基音同步叠加LPC-PSOLA 频域基音同步叠加FD-PSOLA 其中TD-PSOLA算法计算效率较高，已被广泛应用，是一种经典算法，这里只介绍TD-PSOLA算法原理。 * 9.5.1 基音同步叠加PSOLA算法原理信号x(n)的短时傅里叶变换为：其中w(n)是长度为N的