- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第30卷第5期 重庆邮电大学学报(自然科学版) Vol.30 No.5
2018年10月 Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition) Oct.2018
DOI:10.3979/ j.issn.1673 ̄825X.2018.05.013
利用说话人自适应实现基于DNN 的情感语音合成
智鹏鹏ꎬ杨鸿武ꎬ宋 南
(西北师范大学 物理与电子工程学院ꎬ兰州730070)
摘 要:为了提高情感语音合成的质量ꎬ提出一种采用多个说话人的情感训练语料ꎬ利用说话人自适应实现基于深
度神经网络的情感语音合成方法ꎮ 该方法应用文本分析获得语音对应的文本上下文相关标注ꎬ并采用WORLD 声
码器提取情感语音的声学特征ꎻ采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经
网络平均音模型ꎬ用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度
神经网络模型ꎬ利用该模型合成目标情感语音ꎮ 主观评测表明ꎬ与传统的基于隐马尔科夫模型的方法比较ꎬ该方法
合成的情感语音的主观评分更高ꎮ 客观实验表明ꎬ合成的情感语音频谱更接近原始语音ꎮ 所以ꎬ该方法能够提高
合成情感语音的自然度和情感度ꎮ
关键词:情感语音合成ꎻ深度神经网络ꎻ说话人自适应训练ꎻWORLD声码器ꎻ隐马尔可夫模型
中图分类号:TN912.33 文献标志码:A 文章编号:1673 ̄825X(2018)05 ̄0673 ̄07
DNN ̄based emotional speech synthesis by speaker adaptation
ZHI PengpengꎬYANG HongwuꎬSONG Nan
(College of Physics and Electronic EngineeringꎬNorthwest Normal UniversityꎬLanzhou 730070ꎬP.R.China)
Abstract:The paper proposed a deep neural network (DNN) ̄based emotional speech synthesis to improve the quality of
synthesized emotional speech by speaker adaptation with a multi ̄speaker and multi ̄emotion speech corpus. Firstlyꎬa text
analyzer wasemployedtoobtainthecontext ̄dependentlabelsfrom sentenceswhiletheWORLDvocoderwasusedtoextract
the acoustic features from corresponding speeches. Then a set of speaker ̄independent DNN average voice models were
trainedwith thecontext ̄dependentlabelsandacousticfeatures.Finallyꎬthespeakeradaptationwasadoptedtotrainasetof
speaker ̄dependent DNNvoicemodelsof target emotionwithtarget emotionaltraining speeches.Thetarget emotional speech
was synthesized bythespeaker ̄dependentDNNvoicemodels.Subjectiveevaluatio
文档评论(0)