利用说话人自适应实现基于DNN的情感语音合成-重庆邮电大学.PDF

下载文档

36
0
约2.86万字
约 7页
2019-04-06 发布于天津
举报
版权申诉
保障服务

利用说话人自适应实现基于DNN的情感语音合成-重庆邮电大学.PDF

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第３０卷第５期重庆邮电大学学报(自然科学版) Ｖｏｌ.３０　Ｎｏ.５２０１８年１０月ＪｏｕｒｎａｌｏｆＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ(ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ) Ｏｃｔ.２０１８ＤＯＩ:１０.３９７９/ ｊ.ｉｓｓｎ.１６７３￣８２５Ｘ.２０１８.０５.０１３利用说话人自适应实现基于ＤＮＮ的情感语音合成智鹏鹏ꎬ杨鸿武ꎬ宋　南 (西北师范大学物理与电子工程学院ꎬ兰州７３００７０) 摘　要:为了提高情感语音合成的质量ꎬ提出一种采用多个说话人的情感训练语料ꎬ利用说话人自适应实现基于深度神经网络的情感语音合成方法ꎮ 该方法应用文本分析获得语音对应的文本上下文相关标注ꎬ并采用ＷＯＲＬＤ声码器提取情感语音的声学特征ꎻ采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型ꎬ用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型ꎬ利用该模型合成目标情感语音ꎮ 主观评测表明ꎬ与传统的基于隐马尔科夫模型的方法比较ꎬ该方法合成的情感语音的主观评分更高ꎮ 客观实验表明ꎬ合成的情感语音频谱更接近原始语音ꎮ 所以ꎬ该方法能够提高合成情感语音的自然度和情感度ꎮ 关键词:情感语音合成ꎻ深度神经网络ꎻ说话人自适应训练ꎻＷＯＲＬＤ声码器ꎻ隐马尔可夫模型中图分类号:ＴＮ９１２.３３　　　　　　　　　文献标志码:Ａ文章编号:１６７３￣８２５Ｘ(２０１８)０５￣０６７３￣０７ＤＮＮ￣ｂａｓｅｄｅｍｏｔｉｏｎａｌｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｂｙｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎＺＨＩＰｅｎｇｐｅｎｇꎬＹＡＮＧＨｏｎｇｗｕꎬＳＯＮＧＮａｎ (ＣｏｌｌｅｇｅｏｆＰｈｙｓｉｃｓａｎｄＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇꎬＮｏｒｔｈｗｅｓｔＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙꎬＬａｎｚｈｏｕ７３００７０ꎬＰ.Ｒ.Ｃｈｉｎａ) Ａｂｓｔｒａｃｔ:Ｔｈｅｐａｐｅｒｐｒｏｐｏｓｅｄａｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ (ＤＮＮ)￣ｂａｓｅｄｅｍｏｔｉｏｎａｌｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｔｏｉｍｐｒｏｖｅｔｈｅｑｕａｌｉｔｙｏｆｓｙｎｔｈｅｓｉｚｅｄｅｍｏｔｉｏｎａｌｓｐｅｅｃｈｂｙｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎｗｉｔｈａｍｕｌｔｉ￣ｓｐｅａｋｅｒａｎｄｍｕｌｔｉ￣ｅｍｏｔｉｏｎｓｐｅｅｃｈｃｏｒｐｕｓ. Ｆｉｒｓｔｌｙꎬａｔｅｘｔａｎａｌｙｚｅｒｗａｓｅｍｐｌｏｙｅｄｔｏｏｂｔａｉｎｔｈｅｃｏｎｔｅｘｔ￣ｄｅｐｅｎｄｅｎｔｌａｂｅｌｓｆｒｏｍｓｅｎｔｅｎｃｅｓｗｈｉｌｅｔｈｅＷＯＲＬＤｖｏｃｏｄｅｒｗａｓｕｓｅｄｔｏｅｘｔｒａｃｔｔｈｅａｃｏｕｓｔｉｃｆｅａｔｕｒｅｓｆｒｏｍｃｏｒｒｅｓｐｏｎｄｉｎｇｓｐｅｅｃｈｅｓ. Ｔｈｅｎａｓｅｔｏｆｓｐｅａｋｅｒ￣ｉｎｄｅｐｅｎｄｅｎｔＤＮＮａｖｅｒａｇｅｖｏｉｃｅｍｏｄｅｌｓｗｅｒｅｔｒａｉｎｅｄｗｉｔｈｔｈｅｃｏｎｔｅｘｔ￣ｄｅｐｅｎｄｅｎｔｌａｂｅｌｓａｎｄａｃｏｕｓｔｉｃｆｅａｔｕｒｅｓ.Ｆｉｎａｌｌｙꎬｔｈｅｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎｗａｓａｄｏｐｔｅｄｔｏｔｒａｉｎａｓｅｔｏｆｓｐｅａｋｅｒ￣ｄｅｐｅｎｄｅｎｔＤＮＮｖｏｉｃｅｍｏｄｅｌｓｏｆｔａｒｇｅｔｅｍｏｔｉｏｎｗｉｔｈｔａｒｇｅｔｅｍｏｔｉｏｎａｌｔｒａｉｎｉｎｇｓｐｅｅｃｈｅｓ.Ｔｈｅｔａｒｇｅｔｅｍｏｔｉｏｎａｌｓｐｅｅｃｈｗａｓｓｙｎｔｈｅｓｉｚｅｄｂｙｔｈｅｓｐｅａｋｅｒ￣ｄｅｐｅｎｄｅｎｔＤＮＮｖｏｉｃｅｍｏｄｅｌｓ.Ｓｕｂｊｅｃｔｉｖｅｅｖａｌｕａｔｉｏ