多媒体技术042合成历史.pptVIP

下载本文档

0
0
约1.77千字
约 18页
2018-02-20 发布于河南
举报
版权申诉

多媒体技术042合成历史.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多媒体技术042合成历史

语音合成的历史语音合成的历史. 研究历史语音合成算法汉语音音合成的研究语音合成的历史. 1939年 Voder 第一个电子合成器 1987年 Klatt 共振峰合成机械式语音合成器第一个电子合成器合成方法和策略合成方法：发音参数合成、声道模型参数合成和波形编辑合成；从合成策略上讲可分为频谱逼近和波形逼近。 1）发音器官参数语音合成：这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的相关参数。由这些发音参数估计声道截面积函数，进而计算声波。这是对人发音过程的直接模拟，有可能产生逼真的语音。但由于人发音生理过程的复杂性，理论计算与物理模拟之间的差异，合成语音的质量暂时还不理想。合成方法和策略合成方法和策略（2）声道模型参数语音合成：这种方法基于声道截面积函数或声道谐振特性合成语音，如共振峰合成、线性预测系数（LPC）合成。较为著名的共振峰合成器是MIT教授D. Klatt设计的串/并联混合型共振峰合成器。他用串联通道产生元音和浊辅音；并联通道产生轻辅音。还可以对声源作各种选择和调整，以模拟不同的嗓音。在此基础上开发的DEC Talk英语文语转换已广泛的应用于各个方面。国内外已有不少基于参数合成技术的语音合成系统。这类系统需要的存储量低，音质适中，易于实现韵律修改。 Klatt 共振峰合成器计算机语音输出实现方法：一是录音/重放，二是语音合成（文一语转换）：若采用录音/重放的方法，首先要把模拟语音信号转换成数字序列，编码后，暂存于存储设备中(录音)，需要时，再经解码，重建声音信号(重放)。录音/重放可获得高音质声音，并能保留特定人的音色。但所需的存储容量随发音时间线性增长。文一语转换（TTS）是基于声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。文一语转换是语音合成技术的延伸，它能把计算机内的文本转换成连续自然的语声流。若采用这种方法输出语音，应预先建立语音参数数据库、发音规则库等。需要输出语音时，系统按需求先合成语音单元，再按语音学规则或语言学规则，连接成自然的语流。文字-语音转换系统让计算机说话，决不能是断断续续的音节，而应是连续自然，符合语言学规则的声音。意向（intention）--- 概念（concept）---文字语言（language） ---语音（Speech）。目前，对人类大脑的高级神经活动了解甚少，语言合成仅处于文字到语音转换的层次上。(TTS)。语音合成技术合成方法和策略 ? 合成算法的目标：波形逼近与频谱逼近 ?逼近策略：基于最近邻原则挑选基元、基于规则或模型的修饰 ?合成基元：音素、Diphone、Triphone、半音节、音节、词语 ?技术路线：基于语料库或基于规则，统计和规则相结合。 ? 声道和声源：韵律模拟：波形编辑语音合成波形编辑语音合成技术：它直接把语音波形数据库中的波形拼接在一起，输出连续语流。这种语音合成技术用原始语音波形替代参数，而且这些语音波形取自自然语音的词或句子，它隐含了声调、重音等细微特性，合成的语音清晰自然。其质量普遍高于参数合成。 80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法PSOLA(Pitch Synchronous OverLap Add)，该方法较好地解决了语音拼接中的问题，从而推动了波形编辑语音合成技术的发展与应用。波形编辑语音合成 PSOLA就是基音同步叠加。它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施：它以基音周期的整数倍为窗长，对原始波形进行分析，产生中间的表示；然后对中间表示进行修改；将修改过的中间表示重新合成为语音信号。由于修改的参数不同，又分为时域TD-PSOLA、频域FD-PSOLA和线性预测LP-PSOLA。这种语音波形编辑技术多用于文－语转换系统中，现已有英、日、德、法、汉语等多种语言的系统问市。采用这种技术应解决好以下几个问题：语音基元的选取、波形拼接过程中的平滑滤波；韵律修改以及语言学的分析和处理。文字-语音转换系统汉语语音合成的研究汉语语音合成的研究 * * 意向概念文字语音合成文本分析韵律生成声学模块