高斯混合模型参数估值算法的优化_语音转换.docVIP

高斯混合模型参数估值算法的优化_语音转换.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高斯混合模型参数估值算法的优化_语音转换 论文导读::本文针对EM算法这种局部收敛特性。高斯混合模型(GaussianMixtureModels。也是最近几年语音转换领域用于频谱包络的转换[5]使用最多的方法。 论文关键词:EM算法,高斯混合模型,语音转换 0 引言 语音识别和转换技术是比较新的研究领域,也逐渐成为研究重点和热点,在多媒体、配音、多语言交互、保密通信等方面得到了广泛应用[1,2,3]。高斯混合模型(Gaussian Mixture Models,GMM)被广泛应用于语音识别领域[4],也是最近几年语音转换领域用于频谱包络的转换[5]使用最多的方法。基于高斯混合模型的识别方法的基本原理是对说话人集合中的每一个体建立一个概率模型,将说话人的个性特征在特征空间的分布抽象为该概率模型随机产生的结果。相对于其他转换算法的对频谱特征进行量化然后对应,GMM模型是基于对频谱包络特征进行软分类对应,克服了矢量量化的不连续性,得到比较好的语音转换质量。高斯混合模型的参数估计问题有很多方法,其中EM算法[6]是建立在最大似然估计基础上的一种针对不完全数据可实现的迭代算法。其收敛问题依赖于初始值的设定,不能估计模型的阶数,容易陷入局部收敛值。本文针对EM算法这种局部收敛特性,结合常用的遗传算法(GA)[7]的全局搜索特性,对其加以改进。 1 基于EM的高斯混合模型参数估值 1.1高斯混合模型 一个M阶的混合高斯模型的概率密度函数可以表示为 (1) 式(1)中为P维随机矢量,=1,2,,M为混合加权重,且满足约束条件;为每个子分布的P维联合高斯概率分布,由下式表示 (2) 式(2)中是均值矢量,是协方差矩阵,通常情况下完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为 (3) 语音特征通常有着平滑的概率密度函数,因此有限数目的高斯密度函数就足以对语音特征的密度函数形成平滑逼近。适当地选择GMM和均值、协方差和概率权重语音转换,就可以完成对一个概率密度函数的建模。对角化的协方差矩阵,就可以形成较好的近似,减少需要估计的未知变量的数目。 1.2 EM估值算法 GMM模型的参数估计通过给定的一组语音训练数据,依据某种准则求出模型的参数,使确定的GMM模型能最佳的描述给定语音训练数据的概率分布。最常用的估计方法是最大似然(Maximum Likelihood,简称ML)估计,设一组给定的用于训练的语音特征矢量序列为,GMM的似然度可以表示为 ,训练的目的就是找到一组参数,使的最大,即 。式(3)是关于的非线性函数,通常很难直接求得其参数杂志网。 一般采用EM(Expectation Maximization)算法来估计的值。EM算法是一种递归最大似然算法,是ML算法的一种替代算法,用于从一组训练数据序列中估计模型的参数。它的计算是从参数的一个初值开始,采用EM算法估计出下一个新的参数,使得新的模型参数下的似然度。新的模型参数再作为新的初始模型参数进行训练,这样迭代运算进行下去直到模型收敛。EM算法的迭代过程(第n+l步)表示如下: (1)混合权值的重估迭代公式 (2)均值的重估公式 (3)方差的重估公式 以上三个公式中的后验概率,表示为 以上公式同时执行了求期望值(E步)和最大化(M步)。对EM算法中E步、M步重复迭代,当找到似然函数的极大值时停止迭代。 2 遗传算法对EM估值算法的优化 2.1 EM估值算法的局限 EM算法因具有宽广的使用范围和可以移植到各种不同的问题而被广为应用,EM算法假设任一帧语音是出自模型的哪个高斯分量这一信息是可知的,来简化极大似然的优化目标函数,分别经过E步求出期望值,和M步调整模型参数最大化目标函数来逐步收敛,E步骤和M步骤隐含确定每一步的方向和距离。因此,EM算法对初始条件是敏感的,选择不同的初始条件会得到不同的局部最大值。容易想到的方法是,在实验过程中使用不同的初始值设置多次运行EM算法,从多个局部最优中选择一个最优值,这样可以降低最终只得到一个相当差的局部最优值的可能性。但是考虑到EM算法的复杂度是由两个因素共同决定的:收敛所需迭代的次数及每个E和M步骤的复杂度,实践中经常发现当EM算法接近解时,它收敛的相当慢,所以上述设置多个初值运行多次再在其中择优的方法,大大的增加了转换函数训练的代价,常常是无法接受的,所以需要寻找一种可以接受的优化算法和传统的EM算法结合到一起使用。 2.2 采用遗传算法进行优化 近年来,遗传算法已经在国际上许多领域得到了应用,在语音技术领域,已出现很多结合遗传算法的研究。作为一种自适应全局优化搜索算法,遗传算法具

文档评论(0)

潇湘画里 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档