基于少量数据集的端到端语音合成技术研究.pdf

下载文档 降价啦

19
0
约7.55万字
约 58页
2020-12-23 发布于江苏
举报
版权申诉
保障服务

基于少量数据集的端到端语音合成技术研究.pdf

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要语音合成是一种将文本转化为语音的技术。端到端的语音合成方法是通过深度学习算法来建立文本转为语音的条件概率模型，最大化模型的生成概率实现文本到语音的特征映射。目前，大部分语音合成的模型结构都是基于网络层数较深且设计较复杂的网络来建模，为保证高质量语音合成，需要依靠大量数据集训练大规模的网络参数。因此，数据集的大小仍然是语音合成质量的一大瓶颈。为了解决少量数据集下合成音频质量不足的问题，本文将主流的语音合成模型 tacotron 改为文本特征与LPCC 系数的转换网络，将该网络作为前端模型，与LPCNet 的后端声码器结合。实验过程中两个模型分别训练，但合成过程实现端到端。本研究将结合后的整体模型作为实验的基础模型，通过说话人自适应、新增说话人和基于隐变量的说话人合成三个方向分别设计改进实验。实验结果表明，当目标数据集时长为 10 分钟，并且有其他说话人的音频数据时，基于隐变量的合成方法和部分参数调整的自适应方法效果最好，两者在测试集上的MOS 值分别为2.88 和2.87；当目标数据集时长为30 分钟且无其他说话人数据集时，全参数调整的自适应方法效果最好，MOS 评分达到3.06，测试集的LPCC 损失可降为0.3334，如果训练集中包含有大量多说话人数据，说话人嵌入矩阵的方法也能达到类似的效果，测试集的MOS 值可达到3.07，此时LPCC 在测试集的损失为0.2654 。关键词：语音合成，深度学习，少量数据集，平均意见得分，线性预测倒谱系数 I 目录目录 1 绪论2 1.1 研究背景与意义 1 1.1.1 语音合成简述 1 1.1.2 课题研究意义 1 1.2 端到端语音合成2 1.2.1 前端模型2 1.2.2 后端声码器4 1.3 论文创新点 6 1.4 论文结构组织7 2 语音合成技术基础 9 2.1 语音特征提取 9 2.2 深度学习基础 10 2.2.1 深度神经网络 10 2.2.2 卷积神经网络 11 2.2.3 循环神经网络 11 2.2.4 嵌入算法 13 2.3 实验评价指标 14 2.4 本章小结 14 3 说话人自适应 15 3.1 基础模型 15 3.1.1 前端网络 15 3.1.2 后端声码器 17 3.2 实验方法设计 18 3.3 实验结果与分析20 3.4 本章小结26 4 多说话人语音合成 27 4.1 说话人嵌入向量27 4.1.1 多说话人模型27 4.1.2 实验设计28 4.1.3 实验结果与分析28 4.2 新增说话人模型 32 4.2.1 声纹识别网络 32 III 目录 4.2.2 实验设计 33 4.2.3 实验结果与分析 35 4.3 实验对比分析 38 4.4 本章小结 38 5 基于隐变量的语音合成 39 5.1 基于GAN 的合成与转换 39 5.1.1 GAN 网络 39 5.1.2 基于GAN 的说话人转换模型40