语音合成中的神经网络声学建模方法研究-信号与信息处理专业论文
摘要摘要近些年来,统汁参数语音合成(StatisticalParametricSpeechSynthesis.SPSS)已经发展成为和单元挑选与波形拼接相并列的一种主流语音合成方法。其中,基于隐马尔可夫模型(HiddenMarkovModel,HMM)的统计参数语音合成是其最为常见的实现方法。该方法借鉴了基于HMM的自动语音识别(AutomaticSpeechRecognition,ASR)中的一些成熟算法,并且针对语音合成任务的特点,衍生出多空间概率分布、最大似然参数牛成等一系列关键技术。它相对于单元挑选与波形拼接方法,具有系统构建自动化程度高、存储空间小、合成语音平稳流畅、拓展能力强等优点。但是该方法在合成语音的自然度和音质上与单元挑选与波形拼接方法相比仍然有一定的差距。基于HMM的统计参数语音合成中声学建模能力的不足是导致这一问题的主要原因之一。随着深度神经网络(DeepNeuralNetwork,DNN)在自动语音识别中的成功应用,自2013年以来基于神经网络的统计声学建模方法也成为了语音合成研究领域的研究热点,并取得了积极进展。神经网络相对传统统计参数语音合成中使用的HMM模型和基于决策树聚类的高斯状态分布,对于高维声学特征的维问相关性以及输入文本特征与输出声学特征之间的复杂映射关系有着更强的建模能力。因此,本文围绕统计参数语音合成中基于神经网络的声学建模方法开展研究工作。针对频谱特征建模中的高维谱包络维间相关性描述问题,提出了基于神经自回归分布估计模型(NeuralAutoregressiveDistributionEstimator,NADE)的HMM状态分布建模方法和基于深度条件受限玻尔兹曼机模型(DeepConditionalRestrictedBoltzmannMachine,DCRBM)的频谱特征建模方法,提高了频谱特征建模精度,改善了合成语音的音质和自然度:考虑到基频产生的叠加特性和基频感知的长时特性,提出了基于DNN的层次化基频建模方法,降低了基频特征的预测误差,提高了合成语音的自然度;最后,探索了一种端到端的语音合成声学建模方法,利用基于注意力的递归序列生成器(Attention—basedRecurrentSequenceGenerator,ARSG),实现了基于神经网络的语音合成中对于特征埘齐和特征预测的‘体化建模。整篇文章的安排如下:第一章是绪论,简要介绍了语音的产生机理,回顾了语音合成技术的发展历史以及几种常见的语音合成方法。第二章首先介绍了基于HMM的统计参数语音合成方法,包括HMM的基本原理、基于HMM的语音合成系统框架以及四个关键技术,分析了该方法的优缺点。其次回顾了神经网络的发展历史以及其在语音合成声学建模中的已有应用。最后阐述了本文结合神经网络进行语音合成声学建模研究的动机与出发点。第二章提出了-1中基于神经自回归分布估计模型(NeuralAutoregressive Dis—I万方数据摘要tributionEstimator.NADE)的频谱状态建模方法。已有的基于受限玻尔兹曼机(RestrictedBoltzmannMachine.RBM)的谱包络状态建模方法,使用RBM模型取代高斯分布用于描述HMM中各状态的频谱特征分布,取得了一定的改进效果。但是RBM模型存在输出概率以及参数梯度无法精确估计的不足,而NADE模型可以将观察值的输出概率分解为一系列可简单计算的条件概率乘积的形式。因此,本文提出使用NADE模型进行HMM各状态谱包络特征分布的建模,主客观实验结果表明该方法可以有效提高建模精度以及合成语音音质。第四章针对当前基于DNN的统计参数语音合成无法有效建模频谱特征维间相关性和分布多模特性的问题,提出了基于深度条件受限玻尔兹曼机(Deep ConditionalRestrictedBoltzmannMachine,DCRBM)的频谱特征建模与预测方法,并实验分析了多种不同的DCRBM预训练机制。该方法使用RBM作为DNN的输出层,将DNN的特征间关系建模能力与RBM的高维特征表征能力相结合,不仅能够体现给定文本特征情况下,声学特征条件概率分布的多模特性,也可以对高维谱包络的维间相关性进行有效描述。测试结果表明,该方法相对于传统的HMM建模方法、以及基于DNN和深度混合密度网络(DeepMixtureDensityNetwork,DMDN)的频谱特征建模方法,均能取得更优的合成语音音质。第五章将对基于DNN的基频特征建模方法进行研究。在分析了传统基频建模方法的局限性之后,考虑到基频产生的叠加特性和基频感知的长时特性,本章提出了基于DNN的层次化基频建模方法,设计实现了层叠式DNN以及并行式DNN两种模型框架。主客观测试结果表明该方法能够有效地降低基频预测误差并提升合成语音的自
您可能关注的文档
- 网络结构驱动的生物标记筛选及疾病预测模型研究-流行病与卫生统计学专业论文.docx
- 用于白光led的(卤)硼酸盐荧光粉制备及发光性质研究-无机化学专业论文.docx
- 直齿圆柱齿轮冷精锻成形关键技术的工艺优化研究-材料工程专业论文.docx
- 箱型伸缩臂汽车起重机许用载荷分析-动力学与控制专业论文.docx
- 智能化立体动态会计信息平台分析-会计学专业论文.docx
- 小型lng装置的预处理与液化流程研究-制冷及低温工程专业论文.docx
- 一种用于气候模拟的分段积分法及其在荒漠化扩展敏感性试验中的应用-大气科学、气象学专业论文.docx
- 吐鲁番市高昌区浅层地下水补排系统演化与坎儿井流量衰减关系研究-水文学及水资源专业论文.docx
- 用于新型贯通供电系统的级联变换器研究-电气工程专业论文.docx
- 夜郎湖大桥劲性骨架外包混凝土浇筑方式与控制技术研究-建筑与土木工程专业论文.docx
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
原创力文档

文档评论(0)