基于多流动态贝叶斯网络的音视频连续语音识别.pdfVIP

下载本文档

9
0
约2万字
约 8页
2015-09-07 发布于湖北
举报
版权申诉

基于多流动态贝叶斯网络的音视频连续语音识别.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多流动态贝叶斯网络的音视频连续语音识别.pdf

2008年8月西北工业大学学报 Aug． 2008 ofNorthwestern V01．26No．4 第26卷第4期 Journal PolytechniealUniversity 基于多流动态贝叶斯网络的音视频连续语音识别吕国云1，蒋冬梅1，赵荣椿1，张艳宁1，HSahli2，蒋晓悦1 摘要：针对说话时发音和口形的异步问题，提出了一个多流异步动态贝叶斯网络(Dynamic BayesianNetwork，DBN)模型，以实现基于音视频特征的连续语音识别，在这个模型中，音频流和视频流在词节点同步，而在词节点之间，音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系，同时词转移节点变量由音视频流共同确定，模型在词级别上体现了音视频流的异步性。采用连续数字音视频数据库的实验结果表明，在信噪比为o～30dB的测试环境下，比较单流DBN 模型和多流隐马尔可夫模型，平均识别率分别提高了8．68％和10．07％。关键词：多流异步；动态贝叶斯网络；音视频；语音识别中图分类号：TP391．42文献标识码：A 文章编号：1000—2758(2008)04—0518—06 多模态音视频信号处理是近年来语音识别研究 Gowdy各自建立了一个多流DBN模型r7墙】，可使不的一个新的热点。融合说话时语音的听觉和视觉语同的流在词节点同步，而在词节点之间，各个流有独音信息，能够提高语音信号在噪声环境下的识别率立的变量节点和拓扑结构，在词的级别上体现了视和对噪声的鲁棒性[1]。然而心理声学和听视觉语音觉语音信号中音视频流的异步性。但在文献[7，8] 识别的实验结果表明：人说话时唇部运动虽然和语中，词转移概率节点变量仅仅由第1个流(音频流) 音信号相关，但是并不同步，唇部视觉运动要平均先决定，且在词节点之间，2个流之间并非完全独立，于声音信号大约120ms左右[2]。考虑音视频信号之相互之间有条件概率关系存在，限制了两流之间的间的异步性，目前主要的音视频融合处理模型为多异步性。本文提出了一个新颖的多流异步动态贝叶 MarkovModel， DBN，MS— 流异步隐马尔可夫(Hidden 斯网络(Multi—StreamAsynchrony HMM)和乘积HMMc3“]模型，模型允许音频流和视ADBN)模型，在这个模型中，音频流和视频流在词频流在某些阶段点(状态、音素、音节)被强制同步，节点同步，词节点的转移概率由音频流和视频流来在一定程度上描述了音视频流之间的异步性，但是共同决定，而在词节点之间，音视频流有各自独立的由于HMM表达能力的局限性，特别在大中词汇量变量节点和概率依赖关系，在词的级别上体现了音的音视频连续语音识别中，这些模型只能用于音素视频流的异步性。最后采用这个模型了语音识别实级的同步及异步关系的建模，然而在很多情况下音视频数据流的异步程度实际上已超越了音素的边在相同条件下的语音识别结果进行了比较，结果表界口]，允许音视频流在更长的时间内(如音节和词) 明MS—ADBN模型具有更好的性能。内异步，应该会带来更好的识别效果。近年来， Bilmes、Zweig等人采用单流和多流的动态贝叶斯 1基于多流异步动态贝叶斯网络的音网络(DynamicBayesianNetwork，DBN)模型来进视频连续语音识别模型行连续语音的识别研究Es～7]，相比HMM，DBN模型具有更加灵活的结构和对时序序列模型更强的表达动态贝叶斯网络是一个有向图模型，是