基因算法训练连续隐马尔柯夫模型语音识别.docVIP

基因算法训练连续隐马尔柯夫模型语音识别.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因算法训练连续隐马尔柯夫模型语音识别.doc

隐马尔柯夫模型(HMM)方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,并且有较高的识别率。 在HMM中,又分为离散HMM(DHMM)和连续HMM(CHMM)。由于CHMM直接以帧语音特征向量本身为观测序列,而不是像DHMM那样先将语音特征向量经矢量量化为观测符号,因此CHMM有优于DHMM的识别精度。然而,由于CHMM参数多,传统的训练方法采用迭代法,先假设初始值,用语音信号的观测序列对该初始值进行训练,也即按照一定的方法对这些估值进行提纯,对提纯了的估值要接着进一步的提纯,直到再没有改进的余地,达到某个局部最佳值为止。传统的训练方法不保证训练得到全域最优解,而且训练所需要的时间非常巨大。本文着重研究了基因算法[4,5],并按照CHMM的特点构造染色体,用基因算法对CHMM进行训练。基因算法自身的特点使得训练结果趋向于全域最优解。同时,由于只需要用Viterbi算法计算语音的观测序列对某一CHMM模型的相关概率,用作基因算法的适应函数,故该算法可以提高CHMM的训练速度。 一、算法的理论基础 基因是生物学概念,之所以将基因算法引入HMM的训练中,是因为HMM的训练过程实际上是一个在特定范围内将HMM模型进行一次次的迭代提纯,选择最优模型的过程。这和自然界物种间互相竞争、优胜劣汰的现象是相似的。 生物的遗传基因包含在染色体中,染色体总是成对的出现,父代生物的染色体各自复制自己的基因传给子代,经过一定的交叉,基因重组形成下一代生物的染色体,来自父代的基因特性能够在子代上体现并保持下去。而在遗传的同时,又有一定的基因突变。基因突变造成生物体突变现象,打破了旧有的平衡,突破了旧的基因的活动区域,对物种的进化有很大的影响。生物进化的动力来自于遗传和选择,不论是正常的基因重新组合,还是突发的无方向性的基因突变,都可以控制对子代基因中有害淘汰,而只将有益的保留下来,使生物向好的方向进化。将较优的基因保留下来,一代又一代不断选择的结果使子代的基因收敛于某个单一的基因形式,这个基因型就是在特定优化问题的最优解。从数学的角度解释,可以简单地认为,基因重组使子代基因趋向于局部最优解,而基因突变使子代基因突破局部的范围,经过很多代的遗传和选择,达到全域最优解。 传统的CHMM训练算法的实质是选择一个CHMM模型为初始值,也即选择初始状态向量π。状态转移矩阵A和每个状态的输出概率密度函数bj(o)=∑cjk N(o,μjk,Ujk),将其数值与观测序列一起运算,求出一个新的、优于旧CHMM的估计模型,反复迭代,直到局部最优解。可以采用几个不同的初始值,希望能够到达更好的最佳值。 将基因算法引入CHMM的训练,就是基于将CHMM看作在特定域的有约束的寻找最佳匹配点的问题。CHMM的状态转移矩阵A和输出概率密度函数中的混合系数c矩阵的每一行向量之和为1.0,可看作是优化问题的约束条件。如果在选取CHMM的初始值时,不是选取一个初始值,而是选取一组分布于不同区域的初始值,以某一种特定的训练方法,使其趋向于全域最优解,那么最终也同样可以完成对CHMM的训练。 二、基因算法的实现 在自然界中,生物进化的动力来自于遗传和选择。在基因算法中,主要的操作就是模拟遗传的基因重组和基因突变,以及模拟自然选择的样本选择。 根据待优化问题的数学模型,定义适合函数F(ai)。其中ai是某一条染色体,则适合函数F(ai)就是该染色体与目标函数的距离,或是判断该染色体优劣的依据。 对每一代基因,计算所有染色体的适合函数,进行排序选择一定数目较优秀的染色体,作为生成下一代基因的父代样本。 自然界中染色体成对出现,交配时一对染色体分离、重组。图1为多点交叉重组的示意图。多点交叉在实现时,可以设定交叉概率门限为ρc。染色体的长度为L,对于随机数0≤rj≤1 (j=1,2,…,L),如果rj≥ρc,那么下一个变量属于另一条基因,否则下一个变量与前一个变量属于同一条基因。 图1多点交叉示例 Fig.1Multi points crossover 最佳基因是在一代一代的基因重组和基因突变中形成的,是在选择的作用下最适应的个体。基因突变有利于从局部最佳处跳出,防止算法的过早收敛。设定突变概率门限为ρm,对于随机数0≤rj≤1 (j=1,2,…,L),如果rj≤ρm,那么染色体中第j个变量有突变现象发生;否则,复制原染色体的第j个变量。 下面给出基因算法的具体实现步骤: 产生随机数,组成最初的染色体p0=(a1,a2,…,aL)。其中ai为一条染色体,由数学模型中所有的参数按某一特定的排列方式组成。 计算各条染色体的适合函数F(ai)。并选其适合函数F(ai)进行排序,设定门限,选取新的父代染色体p′t。 以随机方式选取染色体交叉。 在自然界的生物进化过程中,基因变异是很重

文档评论(0)

dmz158 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档