网站大量收购闲置独家精品文档,联系QQ:2885784924

个性化语音生成分析-信号与信息处理专业论文.docx

个性化语音生成分析-信号与信息处理专业论文.docx

  1. 1、本文档共104页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化语音生成分析-信号与信息处理专业论文

摘 摘 要 I I 摘 要 个性化语音生成是指生成具有特定说话人特征的语音。个性化语音生成的应 用非常广泛,比如可以改变语音合成系统的语音以提供个性化的合成语音,或在 语音聊天、在线游戏中隐藏说话人的真实身份,也可以在多媒体彩信中模仿他人 以达到娱乐的效果等。目前最常用的个性化语音生成方法有两种:一是说话人转 换方法 二是语音合成模型自适应方法。两种方法有着各自的优缺点,适用于不 同的应用场合。本文对这两种方法的特点和联系进行探讨,针对不同方法存在的 问题和应用的实际需求进行改进,并通过系统评测验证了改进的效果。论文包括 五部分内容: 在第一部分,论文将对个性化特征、个性化语音生成的实际需求以及不同个 性化语音生成方法的特点和使用场景进行总结分析。首先对人的发音过程的声学 机理和数学模型进行了简要介绍, 在此基础上总结了不同的说话人特征参数。然 后对个性化语音生成的实际需求进行分析,并对个性化语音生成方法的优缺点和 适用场景进行讨论。 在第二部分,论文则是对最常用的两类说话人转换方法:基于 GMM 的方法和 基于码本映射的方法,进行一个系统的分析。论文首先介绍 GMM 方法以及几种最 重要的分支。接下去,对 Abe 的经典码本映射方法以及 Alsan 提出的 STASC 码本 映射方法进行介绍。之后,论文将对这两种方法进行一个系统的分析比较,指出 各自的优点和不足。最后,将讨论在实践中发现的 GMM 方法和码本映射方法存在 的两个共同的问题:1.源和目标说话人对应数据的不匹配问题;2.转换频谱的过 平滑问题。这些分析和讨论将指引本文探索新的说话人转换方法。 论文在第三部分,针对现有说话人转换方法存在的问题,提出了一种基于频 谱弯曲的说话人转换方法,其中频谱弯曲函数是基于源说话人和目标说话人的映 射共振峰参数生成。这种方法有两个优点:一是所需训练数据非常少。二是转换 语音具有较高的音质。为了进一步提高与目标说话人的相似度,论文提出了一种 结合频谱弯曲和单元挑选的说话人转换方法以提高频谱细节上的相似度。该方法 首先进行频谱弯曲,然后将弯曲后的频谱作为目标进行单元挑选。接下去将部分 弯曲后的频谱用挑选到的目标说话人的真实频谱进行替换,最后重构出转换后的 语音。评测结果表明,基于本文的频谱弯曲方法获得的转换语音音质远优于其他 方法,并且在音质和相似度上取得较好的平衡。评测结果同时表明结合频谱弯曲 和单元挑选可以比频谱弯曲获得显著的相似度提高。 II II 论文在第四部分,针对多语种语音合成系统遇到的实际问题,创新性地利用 语音合成模型自适应和说话人转换方法相结合的个性化语音生成实现多语种语 音合成系统。当今社会,中英文混合的文本越来越多。为了保证合成语音的自然 连贯,通常要求中英文混合的文本内容用一个声音合成出来。然而,由于很多中 文发音人的英文并不专业,直接用这种不专业的英文训练出来的模型合成的英文 听起来会很不自然。这里,我们提出使用个性化语音生成方法借助一个英文母语 发音人的模型,以获得更自然的中文说话人音色的英文合成语音。在使用最大似 然语音合成模型自适应修改频谱模型的同时,我们利用说话人转换的韵律调整对 韵律模型进行修改以获得更自然的合成韵律。评测结果表明, 这种方法可以得到 比其他方法更为自然的合成语音和一致的中英文音色。值得一提的是,该系统已 被应用于 2010 年上海世博会官方网站,以帮助弱视人士聆听网站内容。 第五部分将对本文进行总结,并对下一步的工作进行展望。 关键词:个性化语音生成,说话人转换, 语音合成,共振峰,频谱弯曲, 模型自适应,多语言 Ab Abstract III III ABSTRACT Personalized speech generation is to generate speech with the characteristics of a target speaker. There are many applications of personalized speech generation. An important application is to build customized text-to-speech system for different companies, in which a TTS system with one company’s favorite voice can be created quickly and inexpensively by modifying origin speakers speech corpus. Personalized speech generation can als

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档