现代语音信号处理(Python版)教学课件第13章 语音合成与转换.ppt

现代语音信号处理(Python版)教学课件第13章 语音合成与转换.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
音色转换: 在已有语音合成系统基础上模拟各种发音人说话; 使合成系统具有快速适应能力,根据用户的需要提供个性化语音合成服务 扩展语音服务在信息服务以外领域的功能(如娱乐) 音色转换的渐进过程演示 STOP 音色转换: 根据有限的目标说话人语音数据,采用模型自适应技术对参数预测模型进行说话人自适应 在非常少(1句话)的目标数据基础上,都可以进行合成系统的说话人转换。 燕平 ? 胡郁 50句 燕平 ? 刘庆峰 50句 燕平 ? 刘庆峰 5句 燕平 ? 刘庆峰 1句 STOP STOP STOP STOP Intonation和EmotionTTS 在现在陈述语气合成的基础上实现感叹,疑问,强调的效果 在正常情绪合成的基础上增强系统在高兴,生气,悲伤等多种情绪方面的表现能力 感叹疑问演示文本:没错!现在资金这么紧缺!你还想扩大生产规模?你说这件事情令人担忧?我觉得完全不会; 情感合成实例 ■ 中立合成 情感合成 生气 难过 13.5 文语转换系统 识别笔 主机(含2G存储卡) 系统软件 配套专用教材 在文语转换系统中,必须事先对文本进分析,根据上下文的关系来确定每个字发音的声调应如何变化,然后用这些声调变化参数去控制语音的合成。文本分析、韵律控制和语音合成这三个模块是文语转换系统的三个核心部分。 (1)文本分析 文本分析的工作可分为三个主要步骤:①将输入文本规范化,在这个过程中处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉;②分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式;③根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式。最终,文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。 传统的文本分析主要是基于规则实现的,比较具有代表性的有:最大匹配法、反向最大匹配法、逐词遍历法、最佳匹配法和二次扫描法等。 (2)韵律控制 任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征。而韵律参数则包括了能影响这些特征的声学参数,如基频、音长、音强等。通过韵律控制模块,系统能够获得语音合成的具体韵律参数。与文本分析的实现方法类似,韵律控制的方法也分为基于规则的方法和基于数据驱动的方法。较早期的韵律控制的方法,均采用规则的方法。目前,通过神经网络或统计驱动的方法进行韵律控制的方法也获得成功的应用。 (3)语音合成 文语转换系统的合成语音模块一般采用波形拼接来合成语音的方法,其中最具代表性的是基音同步叠加法(PSOLA)。其核心思想是,直接对存储于音库的语音运用PSOLA算法来进行拼接,从而整合成完整的语音。然而,基于波形拼接方法的系统,也存在一些问题,就是它的音库往往非常庞大,需要占据较大的存储空间。在拼接时,两个相邻的声音单元之间的谱的不连续性,也容易造成合成音质的下降。目前,解决这些问题较好的途径是把基于规则的波形拼接技术和参数语音合成方法结合起来。在此基础上诞生了一些新的模型,如基音同步的正弦模型等,这些对进一步改善系统的性能提供了帮助。 13.6 语音转换及其研究方向 一个完整的说话人语音转换系统一般会考虑以下几个因素: 1)选择一个理想的分析合成模型。为了获得良好的语音转换效果,必须要建立一个有效的分析合成语音的数学模型。 2)选择一种较为理想的转换算法。在源说话人和目标说话人的个性特征参数之间建立一个有效的匹配函数,这也是说话人语音转换的核心所在。 3)选择一种有效的语音特征参数来表征说话人的个性特征。 未来的研究热点主要包括以下几个方面: 1)目前的语音转换对于频谱和基音周期的转换是单独进行分析的,而没有考虑激励和声道之间的相互作用。 2)目前用于语音转换的语料库都是对称的,在实际生活中更多的是非对称的语料库,需要加强基于非对称语料库进行训练的方法的研究。 3)在实际的应用中需要加强对不同语种语音转换的研究,这必将推动机器翻译的发展。 4)需要进一步加强对相关算法的研究,以期进一步减少算法复杂度和运算量,到达语音的实时转换,在复杂度和实用性方面达到一个很好的折中。 5)需要研究不影响语音转换的有效降噪算法。 6)目前的转换算法忽略了相邻帧之间的联系性,在转换时需要考虑相邻帧之间的关系,以使转换语音保持有效的连续性。 * 后面增加进一步的语音合成技术研发方向,最好增加一些Demo * * * * * 在音色转换 * 在音色转换 * Intonation就是语气语调的意思,包括感叹,疑问等。 第13章 语音合成与转换 南京工程学院

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档