关于语音合成方法的调查报告分析.doc

下载文档 降价啦

16
0
约5.46千字
约 8页
2017-01-09 发布于湖北
举报
版权申诉
保障服务

关于语音合成方法的调查报告分析.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于语音合成方法的调查报告分析

关于语音合成方法的调查报告摘要：本文是一篇关于语音合成方法的调查报告，在搜集整理大量相关文献的基础上，简要的总结了几种常用的语音合成方法，讨论各种合成方法的原理及算法，并简要分析各种合成方法的性能及适用场合。关键词：语音合成；种类；原理；算法；性能正文语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。语音合成从技术方式讲可分为波形合成、参数分析合成以及规则合成等三种。波形合成PCM波形合成法。另一种是波形编辑合成，他把波形编辑技术用于语音合成，通过选取音库中采取自然语言的合成单元的波形，对这些波形进行编辑拼接后输出。 1．1 波形编码合成基本原理：波形编码合成方以语句、短语、词或音节为合成单元，这些单元被分别录音后直接进行数字编码，经适当的数据压缩，组成一个合成语音库。重放时，根据待输出的信息，在语音库中取出相应单元的波形数据，串接或编辑在一起，经解码还原出语音。语音合成技术用原始语音波形替代参数，而且这些语音波形取自自然语音的词或句子，它隐含了声调、重音、发音速度的细微特性，也叫录音编辑合成，合成单元越大，合成的自然度越好，其质量普遍高于参数合成。系统结构简单，价格低廉。但合成语音的数码率较大，存储量也大，因而合成词汇量有限。 1．2 波形编辑合成基本原理：波形编辑合成方算法简述：80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法。PSOLA就是基音同步叠加它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施：对原始波形进行分析，产生非参数的中间表示；对中间表示进行修改；将修改过的中间表示重新合成为语音信号由于修改的参数不同，又分为TD-PSOLA、FD-PSOLA和LP-PSOLA。图1 基于PSOLA算法的语音合成系统本质上说，PSOLA算法是利用短时傅里叶变换重构信号的叠结相加法。信号的x(n)短时傅里叶变换为：由于语音信号是一个短时平稳信号，因此在时域每隔若干个（例如R个）样本取一个频谱函数就可以重构信号x(n)，即可令：其傅里叶逆变换为：然后就可以通过叠加得到原信号，即：时域基音同步叠加技术作为基音同步叠加技术的一种，通过以下步骤实现语音的合成： (1) 对语音合成单元设置基音同步标记。 (2) 以语音合成单元的同步标记为中心，选择适当长度（一般取两倍的基音周期）的时窗对合成单元做加窗处理，获得一组短时信号。 (3) 在合成规则的指导下，调整步骤1）中获得的同步标记，产生新的基音同步标记。 (4) 根据步骤3）得到的合成语音的同步标记，对步骤2）中得到的短时信号进行叠加，从而获得合成语音。性能分析：PSOLA算法在编辑和拼接语音波形前能根据上下文的要求，对拼接单元的韵律特征作出调整，而且音库中的采佯波形中保留了一部分原发音人的语音特征．这样使台成语音的自然度和清晰度都得到了显著提高。 2、参数分析合成参数分析合成多以音节、半音节或音素为合成单元。首先，按照语音理论，对所有合成单元的语音进行分析，提取有关语音参数，这些参数经编码后组成一个合成语音库；输出时，根据待合成的语音的信息，从语音库中取出相应的合成参数，经编辑和连接，顺序送入语音合成器。在合成器中，通过合成参数的控制，将语音波形重新还原出来。参数分析合成方法基于声道截面积函数或声道谐振特性合成语音，如共振峰合成、LPC合成。这类合成在的比特率低，音质适中。为改善音质，发展了混合编码技术，主要手段是改善激励，如码本激励、多脉冲激励、长时预测规则码激励等，这样，比特率有所增大，同时音质得到提高。参数分析合成主要优点是数据量小，易于实现韵律修改，但有限的参数很难表述自然语音的细微变化。共振峰合成语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔（声道），由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色。　　音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。级联型共振峰模型在该模型中，声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。并联型共振峰模型许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很