基于动态贝叶斯网络语音识别及音素切分研究.docVIP

下载本文档

9
0
约5.37千字
约 10页
2018-08-29 发布于福建
举报
版权申诉

基于动态贝叶斯网络语音识别及音素切分研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于动态贝叶斯网络语音识别及音素切分研究

基于动态贝叶斯网络语音识别及音素切分研究　　摘要:研究了一种基于动态贝叶斯网络(dynamic bayesian networks, DBN)的语音识别建模方法,利用GMTK(graphical model tool kits)工具构建音素级音频流DBN语音训练和识别模型,同时与传统的基于隐马尔可夫的语音识别结果进行比较,并给出词与音素的切分结果#65377;实验表明,在各种信噪比测试条件下,基于DBN的语音识别结果与基于HMM的语音识别结果相当,并表现出一定的抗噪性,音素的切分结果也比较准确#65377;?? 　　关键词:动态贝叶斯网络; 图模型; 图模型工具包?? 　　中图分类号:TP391.42文献标志码:A 　　文章编号:1001-3695(2007)10-0104-03 　　?? 　　随着语音技术的走向应用,实际环境对语音识别的声学噪声鲁棒性要求越来越高#65377;仅仅依靠音频特征进行语音识别,已经不能满足低信噪比的环境应用#65377;由于语音中的视觉特征具有抗噪性强的特点,近年来,将视觉特征与听觉特征相结合进行听视觉语音识别,已经成为提高语音识别系统鲁棒性的一条新途径,并且获得了较高的识别率[1]#65377;对于听视觉语音识别的建模方法,传统采用product HMM[2]和多流HMM[3]#65377;?? 　　利用多流HMM模型可以表示听视觉之间的关系,然而只能对听视觉异步关系进行音素级的建模#65377;研究实验证明,对于连续语音识别,协同发音现象非常普遍,使得听视觉间的异步关系已经超过音素边界#65377;另外,HMM在结构上只允许一个时间片具有一个状态,严重限制了对细节的描述#65377;同时,product HMM也带来了状态空间过大#65380;计算量增加等问题#65377;针对这些问题,对于听视觉语音识别急需寻找一种新的反映这种异步关系的建模方法#65377;近年来,基于DBN的单流或多流语音模型应用于连续语音识别[4~6],并取得了较高的识别结果#65377;Zhang Yi??min等人[7]利用DBN的建模优势,提出了一种多流DBN模型(multi??stream DBN, MSDBN)#65377;该模型使用DBN对各种声学特征进行同步和异步建模#65377;实验证明该方法比传统的基于HMM的融合方法带来更高的识别率#65377;然而现有的DBN模型结构中,并没有针对音素级切分结果的比较#65377;为此,本文利用GMTK,构建了音素级的单流DBN模型训练和识别模型;同时还给出了识别率统计结果及词#65380;音素切分结果,并与手工切分#65380;HTK切分结果进行比较#65377;?? 　　　　1基于动态贝叶斯网络的语音模型?? 　　　　1.1图模型与贝叶斯网络?? 　　图模型[8]是一种将概率论与图论相结合的抽象统计模型#65377;透过它,可进一步深入地观察和研究随机过程中一些极为重要的特性,以及这些随机过程式图表示的物理现象#65377;除了强大的表示能力之外,GM还提供了一套高效的概率计算和决策算法#65377;?? 　　　　1.2动态贝叶斯网络?? 　　语音信号是随时间变化的随机过程,如果将BN应用于语音建模中,需要将BN与时间联系起来#65377;动态贝叶斯网络[9]是在时间上对BN的扩展,非常适合对时间序列进行建模#65377;DBN在有限时间内,将变量之间的因果关系用联合概率关系的形式表示出来,并继承了GM和BN强大的表示能力#65377;它是继HMM之后,建立更为复杂的语音模型的新选择#65377;?? 　　1.3用于连接词语音识别的DBN模型构建?? 　　以华盛顿大学的Bilmes为代表的研究者利用动态贝叶斯网络,构建了用于语音识别的GMTK[4,5],大大简化了语音训练及识别的模型结构,提高了识别的运算速度#65377;本文采用GMTK工具包来构建需要的音素级的模型结构#65377;GMTK中使用脚本语言,定义了语音模型的基本结构,对各个节点变量的类型以及范围作了详细定义;同时定义了节点之间的概率转移关系,并用条件概率关系表(CPT)和决策树(decision trees,DTs)进行描述#65377;?? 　　1.3.1GMTK动态模型结构?? 　　GMTK中动态模型的基本结构如图1所示#65377;?? 　　针对图1 中的结构图,将中间frame1的结构进行扩展,得到图2所示的结构,从而显示地描述更长的时间序列#65377;?? 　　1.3.2音素级模型结构描述?? 　　在音视频语音识别的研究中,可以分别利用音频特征和视频特征进行语音识别,因而根据GMTK模型结构的基本框架,构建同时适用于音频特征和视频