基于少量数据集的端到端语音合成技术研究.pdf

基于少量数据集的端到端语音合成技术研究.pdf

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘要 语音合成是一种将文本转化为语音的技术。端到端的语音合成方法是通过深度学 习算法来建立文本转为语音的条件概率模型,最大化模型的生成概率实现文本到语音 的特征映射。目前,大部分语音合成的模型结构都是基于网络层数较深且设计较复杂 的网络来建模,为保证高质量语音合成,需要依靠大量数据集训练大规模的网络参数。 因此,数据集的大小仍然是语音合成质量的一大瓶颈。 为了解决少量数据集下合成音频质量不足的问题,本文将主流的语音合成模型 tacotron 改为文本特征与LPCC 系数的转换网络,将该网络作为前端模型,与LPCNet 的后端声码器结合。实验过程中两个模型分别训练,但合成过程实现端到端。本研究 将结合后的整体模型作为实验的基础模型,通过说话人自适应、新增说话人和基于隐 变量的说话人合成三个方向分别设计改进实验。实验结果表明,当目标数据集时长为 10 分钟,并且有其他说话人的音频数据时,基于隐变量的合成方法和部分参数调整 的自适应方法效果最好,两者在测试集上的MOS 值分别为2.88 和2.87;当目标数据 集时长为30 分钟且无其他说话人数据集时,全参数调整的自适应方法效果最好,MOS 评分达到3.06,测试集的LPCC 损失可降为0.3334,如果训练集中包含有大量多说话 人数据,说话人嵌入矩阵的方法也能达到类似的效果,测试集的MOS 值可达到3.07, 此时LPCC 在测试集的损失为0.2654 。 关键词: 语音合成,深度学习,少量数据集,平均意见得分,线性预测倒谱系数 I 目录 目录 1 绪论2 1.1 研究背景与意义 1 1.1.1 语音合成简述 1 1.1.2 课题研究意义 1 1.2 端到端语音合成2 1.2.1 前端模型2 1.2.2 后端声码器4 1.3 论文创新点 6 1.4 论文结构组织7 2 语音合成技术基础 9 2.1 语音特征提取 9 2.2 深度学习基础 10 2.2.1 深度神经网络 10 2.2.2 卷积神经网络 11 2.2.3 循环神经网络 11 2.2.4 嵌入算法 13 2.3 实验评价指标 14 2.4 本章小结 14 3 说话人自适应 15 3.1 基础模型 15 3.1.1 前端网络 15 3.1.2 后端声码器 17 3.2 实验方法设计 18 3.3 实验结果与分析20 3.4 本章小结26 4 多说话人语音合成 27 4.1 说话人嵌入向量27 4.1.1 多说话人模型27 4.1.2 实验设计28 4.1.3 实验结果与分析28 4.2 新增说话人模型 32 4.2.1 声纹识别网络 32 III 目录 4.2.2 实验设计 33 4.2.3 实验结果与分析 35 4.3 实验对比分析 38 4.4 本章小结 38 5 基于隐变量的语音合成 39 5.1 基于GAN 的合成与转换 39 5.1.1 GAN 网络 39 5.1.2 基于GAN 的说话人转换模型40

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档