结合听感度量的语音合成方法研究-信号与信息处理专业论文.docxVIP

下载本文档

3
0
约6.14万字
约 61页
2019-02-22 发布于上海
举报
版权申诉

结合听感度量的语音合成方法研究-信号与信息处理专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要摘要摘要近年来语音合成技术发展迅速，并在越来越多的实际场景中得到了应用。基于大语料库的单元挑选与波形拼接方法和基于统计建模的参数合成方法是目前最为主流的两种语音合成方法。这些方法通常在训练阶段提取语音声学特征并构建统计模型，在合成阶段依据特定准则实现单元挑选或参数生成。在现有语音合成方法中，常用的声学特征包括基频、倒谱、线谱对等，常用的单元挑选与参数生成准则包括最大输出概率准则等。这些特征和准则往往基于语音产生机理和统计学方法进行设计，而从语音听觉感知角度进行的考虑较少。在另一方面，合成语音的质量评估仍然依赖于测听人的主观评分。在特征选择与合成准则中对于听感度量的考虑不足，制约了现阶段方法合成语音质量的进一步提升。因此，本文围绕结合听感度量的语音合成方法展开研究工作。一方面，研究了单元挑选与波形拼接合成中结合主观评价数据的单元挑选准则设计方法，通过构建合成错误检测器，实现了将测听人对合成语音的主观评价信息融入单元挑选准则，提高了合成语音的自然度；另一方面，研究了统计参数语音合成中结合听感相关声学特征的建模与生成方法，利用调制谱、多分辨率时频分析等与听觉感知机理相关的声学度量，对传统声学特征的建模与生成方法进行了改进，提高了合成语音的主客观质量。本文的安排如下，第一章是绪论，简要介绍了语音合成的概念、意义以及发展历史，重点介绍语音合成的研究现状，并提出了本文的研究目标和研究内容。第二章将提出一种结合主观评价数据的单元挑选语音合成方法。该方法首先利用众包网络平台快速、大量地收集测听人对合成语音的主观评价数据，然后基于这些数据构建合成错误检测器，最后将上述检错器的打分结果融合到单元挑选准则中。实验结果显示该方法能够有效改善合成语音的自然度。第三章将介绍结合听感相关声学特征的统计参数语音合成方法。首先介绍了调制谱和多分辨率时频分析的基本概念，包括其听觉生理基础与计算提取方法；然后研究了基于调制谱补偿的参数合成音质增强方法，设计实现了多种面向线谱对特征的调制谱计算策略，实验结果表明，先将线谱对参数转换为梅尔倒谱参数后再求取调制谱，可以取得最优的调制谱补偿性能，有效提高合成语音的主观质量；最后研究了结合多分辨率时频分析的参数语音合成声学建模方法，该方法采用了基于深度神经网络的声学建模方法和多任务学习机制，分别尝试了将听觉谱特征和听觉皮层输出特征作为模型训练的次要任务，实验结果表明，采用听觉谱特征作为次要任务可以提升倒谱特征的预测精度。第四章总结全文，并提出对未来工作的展望。 T 万方数据摘要关键词：语音合成合成错误检测调制谱后置滤波多分辨率时频分析深度摘要关键词：语音合成合成错误检测调制谱后置滤波多分辨率时频分析深度神经网络多任务学习万方数据 ABSTRACTABSTRACT ABSTRACT ABSTRACT Speech synthesis technology has developed quickly in recent years，and has been applied in more and more real scenarios．Corpus-based unit selection and waveform concatenation approach and statistical parametric speech synthesis approach the two most popular speech synthesis approaches at present．These methods usually extract speech acoustic features and build statistical models at training time，and achieve unit selection parameter generation through specific criteria at synthesis time．Now com- monly used acoustic features include fundamental frequency，mel—cepstral coefficients and line spectral pairs，and the commonly used unit selection and parameter generation criteria include the maximum output probability criterion．These features and crite— ria designed based on speech gen