声音转换的基本原理-Read.docVIP

  • 10
  • 0
  • 约5.84万字
  • 约 72页
  • 2019-05-31 发布于天津
  • 举报
PAGE 目 录 TOC \o 1-3 \h \z 第一章 绪论 1 1.1 源-目标说话人声音转换研究的背景和概况 1 1.2 国内外研究现状 2 1.3 本文的主要研究工作 4 第二章 源-目标说话人声音转换的基本原理 7 2.1 语音信号的产生机理 7 2.2 说话人特征与语音模型及其参数表示 9 2.3 基于LPC的语音分析/合成模型 10 2.3.1 线性预测系数及线频谱参数的提取 10 2.3.2 基于听觉感知加权的特征参数表示 14 2.3.3 LPC分析/合成模型下的转换系统框架 15 2.4 源-目标说话人声音转换系统的组成框架 15 2.5 转换效果的评价方法 17 2.5.1 客观评价 17 2.5.2 主观评价 18 2.6 实验数据库描述 18 2.7 本章小结 19 第三章 基于矢量量化的码本映射方法 20 3.1 矢量量化的基本原理 20 3.2 码本映射方法的原理及框图 21 3.3 影响谱转换效果的几个因素 23 3.3.1 初始码字的选择问题 24 3.3.2 源话者与目标话者码本尺寸大小的匹配实验 25 3.4 本章小结 27 第四章 分类线性映射方法 28 4.1 关于分类算法的探讨 28 4.2 分类线性映射(CLT)方法的基本原理 29 4.2 实验结果及其讨论 31 4.2.1 初始聚类中心的选择实验 31 4.2.3 码本映射法和分类线性映射法的对比实验 33 4.2.4 分类算法的选取对谱转换效果的影响 34 4.3 本章小结 35 第五章 分类线性加权映射方法 36 5.1 高斯混合模型(Gaussian Mixture Model)的基本原理 36 5.1.1 GMM的基本参数 36 5.1.2 GMM的训练算法(EM算法) 38 5.2 分类线性加权的映射(WCLT)方法 39 5.2.1 最小均方误差准则下的谱转换函数的获取 41 5.2.2 加权最小均方误差准则下的谱转换函数的获取 42 5.3 实验结果及其讨论 45 5.3.1 WCLT中转换效果和混合度的关系 45 5.3.2 不同的源/目标转换组合的对比实验 46 5.3.3 两种训练准则下的谱失真比较 47 5.3.4 训练数据集大小对转换精度的影响实验 48 5.4 本章小结 49 第六章 部分音源特征的转换研究 51 6.1 基频及其轨迹的转换 51 6.1.1 基音周期的提取 51 6.1.2 均值线性变换模型 53 6.1.3 基于基元段特征的基频轨迹的转换 54 6.2 目标激励残差信号的产生 56 6.3 实验结果和分析 57 6.3.1 基频轨迹的转换 58 6.3.2 转换语音的主观评价 59 6.3.3 转换合成语音示例 61 6.4 本章小结 62 第七章 总结与展望 63 参考文献 66 致谢 69 攻读硕士学位期间发表或完成的学术论文 70 中国科学技术大学硕士学位论文 第一章 绪论 PAGE 26 中国科学技术大学硕士论文 第一章 绪论 第一章 绪论 1.1 源-目标说话人声音转换研究的背景和概况 语音在日常通讯中占有非常重要的地位,它携带着大量有用信息,一般认为它至少包含语义信息、说话环境信息和说话人特征信息。其中,说话人特征信息描述了与说话人身份相关的声音方面特征,而与具体内容信息和说话环境无关。因此凭借语音信号中的说话人的个性特征,我们仅从电话、网络通讯、广播等中传播的声音就可辨别和确认出说话人的具体身份。语音信号与信息处理研究领域中的自动说话人识别就是利用计算机从说话人的语音进行说话人身份识别的技术。 声音转换(Voice Conversion)是一种改变说话人声音特征的技术,将某个说话人的语音模式转换成与其特性不同的另一种语音模式,而保持语音中原有的具体内容信息(语义信息)和说话时的环境信息不变,例如男女声的转换[1]。 源-目标说话人声音转换则是指将源说话人的语音模式转换成某个指定的特定目标说话人的语音模式,即保持源说话人原有的语音信息内容不变,使转换后的语音具有目标说话人的声音特点[2]。 声音

文档评论(0)

1亿VIP精品文档

相关文档