- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于遗传算法的语法网络搜索方法
一种基于遗传算法的语法网络搜索方法 一种基于遗传算法的语法网络搜索方法
1.引言
语音识别技术是让机器通过识别和理解人类的语音信号,进而听懂人类的语言。近年来,由于计算机各项功能的日益强大,云计算技术的全面发展,语音信号处理技术也得到了长足的进步。目前语音识别技术已广泛应用于医疗、教育、安全、电信客服等领域,覆盖人类生活的方方面面。
但在实际应用中仍然会存在较多的问题,比如信道干扰、背景噪音干扰等,这些不确定因素都会对识别率造成很大的影响。另外,在各类嵌入式设备终端上,语音识别系统的运行环境相对比较差,在系统的效率和效果之间要做好平衡。基于以上问题,语音识别系统通常从三方面来评价,分别鲁棒性、识别率以及响应时间,本文重点关注语音识别系统的识别率和响应时间。本文选择基于隐马尔科夫模型的语音识别技术[1]构建了基线系统。在该系统中,影响语音识别系统识别率和响应时间的模块比较多,但最主要的还是解码模块。该模块通常采用传统的Viterbi解码方法,但是在海量命令词识别时,如车载领域的兴趣点识别,搜索空间急剧增大,获取最优解的效率大大降低。针对这类复杂的问题,需要把主要精力放在寻求满意解上。
遗传算法借鉴了生物学中的染色体和基因的概念,通过模拟自然进化过程,求解满意解较为有效。它对一个参数编码群体进行操作,提供的参数信息量较大,优化效果也相对较好[2-4]。因此,本文将GA算法应用于基线系统的语法网络搜索模块,以此来提升该模块的全局优化搜索能力,进而改善系统的识别效果和响应时间。
2.基线系统的构建??????????????????
系统结构
如图1所示,系统各部分按照与识别实例关系的不同分为两大类:实例无关事物和实例相关事物。实例无关事物指的是与识别实例无关的永久性资源:包括拼音到HMM索引表、汉字到HMM的索引表和HMM集合。实例相关的事物则指的是与特定识别实例相联系的行为或数据。它又可分为四个字模块:词典集合、搜索本文由论文联盟http://收集整理、转化和录音模块。
录音模块,负责和录音设备交互。负责从录音设备中获取声音数据。负责自动将含有静音和语音的数据切分出来,提供给转化使用。
转化模块,负责将波形数据转化为特征向量序列。
搜索模块,负责对特征向量序列在给定的语法网络中搜索。对每一帧搜索数据,能够更新搜索状态。搜索状态是一个记号集合,每个记号对应于搜索网络中的一个节点,同时还包括搜索数据到达此节点的最大概率和路径,以及内部HMM各状态的概率。
词典集合模块,负责管理词典。实际系统支持多个词典,形成一个词典可包含多个词典的词典集合。每个词典包含多个词,可以增加、删除词。可以将一个词典生成语法网络,提供给搜索使用。
图1 基线系统框架结构
2.识别流程概述
系统有两种运行状态:脱机识别和联机识别。脱机识别和联机识别的区别在于语音数据的来源不同。脱机识别数据来自文件,而联机是别的数据来自麦克风。这两种状态的运行流程如图2所示。
图语音识别流程
3.语法网络搜索的遗传操作
在实际的搜索中,我们通常是将HMM根据语法的限制连接成一个语法网络,如图3就是一个简单的孤立词识别系统的语法网络,语法网络可以分为三层,如图4所示。
语法网络搜索过程又称为解码,逻辑上通常将解码分为两层,一层是HMM内部状态在时刻t的最大概率,另一层是以网络节点为单元,它们之间的关系为网络节点在时刻t的概率是本HMM内部各状态在时刻t的最大值。
传统的解码方法是Viterbi解码,但是在一些应用场合,比如车载领域的POI识别,其命令词集合非常大,往往有数十万条。此时,解码的搜索空间将急剧增大,而系统的效率、效果将急剧下降。所以,对这类复杂的问题,需要把主要精力放在寻求满意解上,而GA正是寻求这种满意解的最佳工具之一。
图孤立词识别系统的网络结构
图语法网络的三层模型[5]
编码方案
将语法网络的HMM标号i作为基因,构造有K个命令词的识别网络,每个命令词内存放一类标号,构成遗传操作的染色体。
3.创建初始种群
初始种群应具有一定的规模,以保持群体内个体的多样性。由于GA具有很强的鲁棒性,所以如何形成初始种群不影响优化结果,只影响优化时间。可以对一条染色体加以随机扰动产生一定N-1条剩余的染色体。
3.适应度函数
计算染色体对应的HMM状态的似然度估计值,以此作为适应度评价函数。似然值越大,适应度值也就越大。不过这显得有些简单,后续还可以将似然值进行分段处理,并增加辅助评价函数。
3.交叉运算
交叉运算是遗传算法中产生新个体的主要操作过程,它以某一概率相互交换某两个个体之间的部分
文档评论(0)