学习报告—语音转换(voiceconversion).docx

学习报告—语音转换(voiceconversion).docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
林婧伊 学习报告 —语音转换(voice conversion) 汇报内容 一.语音转换的概念 二.语音转换技术的发展概况 三.基于高斯混合模型(GMM)的语音转换技术 四.在高斯混合模型之后产生的方法 五.Toolkit 演示 语音转换 从窄带语音通信转换为宽带语音通信 语音产生模型 声关节反转映射 体传送语音增强 发声帮助器 VOICE CONVERSION Voice conversion (VC) is a technique to transform the speech of one speaker (source) so that it sounds like it was uttered by another speaker (target) without changing the language context. A voice conversion system contains Training phase During training phase, a conversion function is estimated from parallel source and target feature vector sequences. Conversion phase In conversion phase, the conversion function is applied on features extracted from new input speech of source speaker, then the modified features are used to reconstruct the converted speech. 图1.语音转换技术系统结构图 训练阶段 转换阶段 二.语音转换技术的发展概况 (1) 语音转换的发展历程 1980s开始(统计学方法): 1.Abe等人发明码本映射方法。 2.模糊向量量化。 3.建立了源—目标向量间的差异向量。 4.Valbret等人使用了LMR(linear multivariate regression)。 5.其他:说话人插入、神经网络。 (2)最流行的方法 1.Styrianou 等人: 基于高斯混合模型的转换方法(GMM)。 2.先进的基于高斯混合模型的转换方法: 利用MLE(maximum-likelihood estimation)。 三.基于高斯模型(GMM)的语音转换技术 传统的高斯混合模型: A.概率密度函数: 已知 和 是第t帧的D维源、目标特征向量 是 的联合向量 是参数集合:包括权重、平均向量、协方差矩阵 是平均向量 协方差矩阵,各协方差矩阵分别都是对角 线矩阵 在训练过程中: 1.用Dynamic time warping(DTW)将联合向量自动排队。 2.用期望最大化算法(EM)训练GMM模型。 EM算法: (1)基本思路: 1.初始化一组基本参数。 2.根据后验概率来更新隐含变量(Z)的期望值E(Z)。 3.用E(Z)代Z求出新的参数,如此迭代指导参数趋于稳定。 B.映射函数 的概率密度函数也表示为: 在传统方法中,转换是基于最小均方差的: 先进的高斯混合模型 利用MLE: 四.在高斯混合模型之后产生的方法 在高斯模型之后,产生了非统计学方法: 1.VTLN:Vocal tract length normalization(声道长度归一化) 2.加权频率弯曲 3.动态频率弯曲 4.双线频率弯曲 Exemplar-Based Sparse Representation With Residual Compensation for Voice Conversion 用字典描述语音的观察值 优点: 1. 直接使用训练数据语音段来构建字典。 2. 允许我们构建高维度的频谱模型来保留细节。 3. 转换谱的产生非常简单,就如组合一些基本的语音段,不需要映射或

文档评论(0)

lilysh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档