倒谱本征空间结构化高斯混合模型及语音转换研究-通信与信息系统专业论文.docxVIP

下载本文档

0
0
约5.45万字
约 71页
2018-12-05 发布于上海
举报
版权申诉

倒谱本征空间结构化高斯混合模型及语音转换研究-通信与信息系统专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

倒谱本征空间结构化高斯混合模型及语音转换研究-通信与信息系统专业论文

倒谱本征空间结构化高斯混合模型及语音转换研究中文摘要倒谱本征空间结构化高斯混合模型及语音转换研究中文摘要语音转换是语音信号处理领域的一个重要分支，其目的是保持说话人语音的语义信息不变，只改变说话人的个性特征，源说话人语音经过转换后其个性特征更接近目标说话人的个性特征。传统的语音转换方法大多采用平行语料联合训练源-目标说话人的语音模型并由此推导出相应的语音转换函数，但在实际应用中难以获得完全平行的语料，而且训练联合说话人语音模型的计算量大，在多说话人之间进行语音转换时系统繁杂。本课题针对非平行语料非联合训练条件下的语音转换，提出一种基于倒谱本征空间结构化高斯混合模型的方法。首先提取说话人语音的倒谱特征参数，然后根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型 (SGMM-ES, Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的 SGMM-ES 根据全局声学结构(AUS, Acoustical Universal Structure)原理进行匹配对准，最终得到基于倒谱本征空间的短时谱转换函数。主客观实验结果以及表明 SGMM-ES 语音转换系统的转换性能非常接近于传统平行语料的方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。本课题的研究内容主要包括以下几个方面： (1)、研究了语音产生的基本原理以及数学模型，对语音的个性特征参数进行了详细的分析，并基于 STRAIGHT 构成语音分析-合成平台。 (2)、搭建了平行语料联合训练条件下基于 GMM 模型的语音转换平台作为基准系统，并具体分析了传统语音转换方法存在的问题。 (3)、深入研究了语音的全局声学结构原理，提出了说话人倒谱本征空间结构化高斯混合模型(SGMM-ES)及其具体实现算法。 (4)、在非平行语料非联合训练的条件下，实现了基于倒谱本征空间结构化高斯混合模型的语音转换系统。 (5)、对 GMM、SGMM、SGMM-ES 三种方法得到的转换语音进行了主客观实验评测，并作了详细的分析，以验证本论文提出方法的有效性。 I II II 中文摘要倒谱本征空间结构化高斯混合模型及语音转换研究关键词：语音转换；倒谱本征空间；非平行语料；结构化高斯混合模型作者：李阳春指导老师：俞一彪 PAGE IV PAGE IV Voice Conversion Using Structured Gaussian Mixture Model in Eigen Space Abstract Voice Conversion Using Structured Gaussian Mixture Model in Eigen Space Abstract Voice conversion is an important branch in the field of speech signal processing, its task is to keep the semantic information of voice remains unchanged, only change the speaker’s personality, and make the personality traits of converted source speech closer to the target speaker. Traditional voice conversion method most used parallel corpora to joint training source and target speaker’s voice model, and then derived the voice conversion function. But it is difficult in practice to obtain fully parallel corpora, and union speech model training cost a large amount of calculation, more importantly the voice conversion system between more speakers is complicated. Under the condition of non-parallel corpora without joint training, a new methodology of voice conversion in eigen