语音信号处理课件第九章.pptxVIP

下载本文档

1
0
约6.64千字
约 51页
2023-03-19 发布于上海
举报
版权申诉

语音信号处理课件第九章.pptx

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章语音合成 19.1 概述29.2 语音合成的原理及分类39.3 共振峰合成法9.4 线性预测参数合成法49.5 基音同步叠加法569.6 文语转换系统第一页，共五十一页。9.1 概述语音合成是人机语声通信的一个重要组成部分，解决让机器像人那样说话的问题。最早的合成器是1835年由W.von Kempelen发明，经Weston改进的机械式会讲话的机器。而最早的电子式语音合成器是1939年Homer Dudley发明的声码器，它不是简单的模拟人的生理过程，而是通过电子线路来实现基于语音产生的源-滤波器理论。第二页，共五十一页。在语音合成技术发展中，早期研究主要是采用参数合成方法。 1990年提出的基音同步叠加PSOLA方法，使基于时域波形拼接方法合成的语音音色和自然度大大提高。我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。第三页，共五十一页。9.2 语音合成的原理及分类 9.2.1 波形合成法波形编码合成法是一种波形合成法，类似于语音编码中的波形编解码方法，该方法直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储，合成重放时再解码组合输出。特点：所需的存储容量太大，词汇量不能很大；相对简单，通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。第四页，共五十一页。另一种波形合成法是波形编辑合成，它把波形编辑技术用于语音合成，通过选取音库中采取自然语言的合成单元的波形，对这些波形进行编辑拼接后输出。它采用语音编码技术，存储适当的语音基元，合成时，经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。第五页，共五十一页。参数合成法参数合成法也称为分析合成法。参数合成法有：发音器官参数合成和声道模型参数合成。发音器官参数合成法：是对人的发音过程直接进行模拟。它定义了唇、舌、声带的相关参数，如唇开口度、舌高度、舌位置、声带张力等，由发音参数估计声道截面积函数，进而计算声波。缺点：合成语音的质量不理想。第六页，共五十一页。参数合成方法的优点：音库一般较小，并且整个系统能适应的韵律特征的范围较宽，这类合成器比特率低，音质适中。缺点：算法复杂，参数多，并且在压缩比较大时，信息丢失亦大，合成出的语音总是不够自然、清晰。为了改善音质，近几年发展了混合编码技术，以改善激励信号的质量。第七页，共五十一页。9.2.3规则合成法规则合成方法：一种高级的合成方法，通过语音学规则产生语音，可以合成无限词汇的语句。合成的词汇表不是事先确定，系统中存储的是最小的语音单位的声学参数，以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。算法中，用于波形拼接和韵律控制的较有代表性的算法是基音同步叠加PSOLA技术。第八页，共五十一页。9.2.3 规则合成法基音同步叠加PSOLA技术主要特点：在语音波形片断拼接之前，首先根据语义，用PSOLA算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始语音基元的主要音段特征，又使拼接单元的韵律特征符合语义，从而获得很高的可懂度和自然度。第九页，共五十一页。表9.1三种语音合成方式的比较项目波形合成方式参数合成方式按规则合成方式语音质量可懂度高高高自然度高中高词汇量小（500字以下）大（数千字）无限合成方法PCM,ADPCMLPC,LSP,共振峰LPC,LSP共振峰数码率9.6～64kbit/s 2.4～9.6 kbit/s50～75 kbit/s1兆比特可合成的语音长度15秒～100秒100秒～7分无限合成基元音节、词组、句子音节、词组、句子音素、双音素、音节装置简单比较复杂复杂硬件主体存储器存储器和处理器处理器第十页，共五十一页。9.3共振峰合成法共振峰合成理论中声道参数、声道谐振特性一直是研究的重点。共振峰合成模型是把声道视为一个谐振腔，利用腔体的谐振特性，如共振峰频率及带宽，以此为参数构成一个共振峰滤波器。因为音色各异的语音有不同的共振峰模式，以每个共振峰频率及其宽带为参数，可以构成一个共振峰滤波器。第十一页，共五十一页。9.3 共振峰合成法共振峰语音合成器的构成原理：将多个共振峰滤波器组合起来模拟声道的传输特性，对激励声源发生的信号进行调制，经过辐射得到合成语音。基于共振峰的理论有三种实用模型。第十二页，共五十一页。9.3.1级联型共振峰模型在该模型中，声道被认为是一组串联的二阶谐振器，共振峰滤波器首尾相接，其传递函数为各个共振峰的传递函数相乘的结果。第十三页，共五十一页。五个极点的共振峰级联模型传递函数为：即：语音G一个五个极点的共振峰级联模型如下----V2辐射模型 V1 V5激励源式中，G为增益