多媒体技术042合成历史.pptVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多媒体技术042合成历史

语音合成的历史 语音合成的历史. 研究历史 语音合成算法 汉语音音合成的研究 语音合成的历史. 1939年 Voder 第一个电子合成器 1987年 Klatt 共振峰合成 机械式语音合成器 第一个电子合成器 合成方法和策略 合成方法:发音参数合成、声道模型参数合成和波形编辑合成;从合成策略上讲可分为频谱逼近和波形逼近。 1)发音器官参数语音合成:这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的相关参数。由这些发音参数估计声道截面积函数,进而计算声波。这是对人发音过程的直接模拟,有可能产生逼真的语音。但由于人发音生理过程的复杂性,理论计算与物理模拟之间的差异,合成语音的质量暂时还不理想。 合成方法和策略 合成方法和策略 (2)声道模型参数语音合成:这种方法基于声道截面积函数或声道谐振特性合成语音,如共振峰合成、线性预测系数(LPC)合成。较为著名的共振峰合成器是MIT教授D. Klatt设计的串/并联混合型共振峰合成器。他用串联通道产生元音和浊辅音;并联通道产生轻辅音。还可以对声源作各种选择和调整,以模拟不同的嗓音。在此基础上开发的DEC Talk英语文语转换已广泛的应用于各个方面。 国内外已有不少基于参数合成技术的语音合成系统。这类系统需要的存储量低,音质适中,易于实现韵律修改。 Klatt 共振峰合成器 计算机语音输出实现方法: 一是录音/重放,二是语音合成(文一语转换): 若采用录音/重放的方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,重建声音信号(重放)。录音/重放可获得高音质声音,并能保留特定人的音色。但所需的存储容量随发音时间线性增长。 文一语转换(TTS)是基于声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。文一语转换是语音合成技术的延伸,它能把计算机内的文本转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。 文字-语音转换系统 让计算机说话,决不能是断断续续的音节,而应是连续自然,符合语言学规则的声音。 意向(intention)--- 概念(concept)---文字语言(language) ---语音(Speech)。 目前,对人类大脑的高级神经活动了解甚少,语言合成仅处于文字到语音转换的层次上。(TTS)。 语音合成技术 合成方法和策略 ? 合成算法的目标:波形逼近与频谱逼近 ?逼近策略:基于最近邻原则挑选基元、基于规则或模型的修饰 ?合成基元:音素、Diphone、Triphone、半音节、音节、词语 ?技术路线:基于语料库或基于规则,统计和规则相结合。 ? 声道和声源: 韵律模拟: 波形编辑语音合成 波形编辑语音合成技术:它直接把语音波形数据库中的波形拼接在一起,输出连续语流。这种语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音等细微特性,合成的语音清晰自然。其质量普遍高于参数合成。 80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法PSOLA(Pitch Synchronous OverLap Add),该方法较好地解决了语音拼接中的问题,从而推动了波形编辑语音合成技术的发展与应用。 波形编辑语音合成 PSOLA就是基音同步叠加。它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施:它以基音周期的整数倍为窗长,对原始波形进行分析,产生中间的表示;然后对中间表示进行修改;将修改过的中间表示重新合成为语音信号。由于修改的参数不同,又分为时域TD-PSOLA、频域FD-PSOLA和线性预测LP-PSOLA。 这种语音波形编辑技术多用于文-语转换系统中,现已有英、日、德、法、汉语等多种语言的系统问市。采用这种技术应解决好以下几个问题:语音基元的选取、波形拼接过程中的平滑滤波;韵律修改以及语言学的分析和处理。 文字-语音转换系统 汉语语音合成的研究 汉语语音合成的研究 * * 意向 概念 文字 语音 合成 文本分析 韵律生成 声学模块

文档评论(0)

asd522513656 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档