基于深度学习的情感可控说话人自适应语音合成.pdf

基于深度学习的情感可控说话人自适应语音合成.pdf

摘要

本研究旨在探索基于深度学习的情感可控、说话人自适应语音合成方法,以

实现在缺乏大规模情感标注及个体说话人特定数据的条件下,仅依赖观测语音实

现说话人特征与情感状态的联合建模,从而生成兼具目标音色相似度与情感表达

的高音质合成语音。得益于深度神经网络在数据表征方面的强大能力,该方法在

语音合成、情感合成及说话人自适应等多个领域展现出广泛的应用前景。然而,

以往的语音合成系统普遍面临建模能力不足的问题,难以同时保留说话人音色和

细粒度情感特征的真实表达。为此,本文提出了一种级联式语音合

文档评论(0)

1亿VIP精品文档

相关文档