优化自适应非平行训练语音转换算法的研究.pdf

下载文档 降价啦

4
0
约10.49万字
约 78页
2016-01-10 发布于安徽
举报
版权申诉
保障服务

优化自适应非平行训练语音转换算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

优化自适应非平行训练语音转换算法研究中文摘要优化自适应非平行训练语音转换算法研究中文摘要语音转换（VC ：Voice Conversion ）是指在保持语义内容不变的前提下，改变说话人的个性特征，使源说话人的语音在经过变换后听起来像是目标说话人说的一样。传统的语音转换方法大都采用平行语料训练源- 目标说话人联合语音模型并由此推导相应的语音转换规则，但实际应用中不仅难以得到完全平行的语料，而且训练联合语音模型需要消耗大量的计算、系统扩展不方便。本文提出了一种全新的非平行语料训练的语音转换算法，首先利用 STRAIGHT 提取基频和短时谱，从短时谱获得相应的 LPCC 特征参数，然后对所有的特征参数进行通用背景模型（UBM ： Universal Background Model ）训练，再利用最大后验概率（MAP: Maximum a Posterior Probability ）自适应方法导出具体的说话人模型，最终得到相应的转换规则进行语音转换。ABX 和MOS 等实验表明可以得到与传统的平行语料联合训练方法接近的转换性能。实验结果充分说明了本文提出的方法不仅具有较好的转换性能，而且具有很好的系统扩展性。本课题的研究内容主要包括以下几个方面： 1. 语音转换的个性特征参数分析，包括声道参数与韵律参数等，如基音频率，短时谱参数，时长等。 2. 实现了传统的采用高斯混合模型（GMM：Gaussian Mixture Model ）实现的语音转换系统，分析了传统的方法的特点与存在的问题。 3. 基于非平行语料，提出了优化自适应非平行训练的语音转换方法，解决了传统转换方法存在的主要问题。 4. 研究了通用背景模型（UBM ）和说话人自适应技术，利用最大后验概率（MAP ）自适应技术训练独立的说话人模型。 5. 研究了STRAIGHT 分析-综合算法，利用STRAIGHT 实现了说话人的基音频率和短时谱特征的分析，控制合成语音的时长等参数，最终合成出目标语音。 I 6. 构建了基于UBM 与MAP 自适应技术的非平行语料训练的语音转换系统，实现了整个系统，并对该系统的性能进了分析、评价。关键词：语音转换，非平行语料，非平行训练，UBM ，MAP 自适应作者：朱春雷指导老师：俞一彪 Voice conversion based on improved adaptive training using non-parallel speech corpus Abstract Voice conversion based on improved adaptive training using non-parallel speech corpus Abstract Voice conversion is a technique that modifies the input speech of one speaker (source speaker), and makes it sound like that uttered by another speaker (target speaker). Traditional voice conversion algorithms are usually based on parallel speech corpus and joint training, but it is difficult to obtain parallel data and inflexible to extend