基于神经网络隐马尔可夫模型的混合语音识别方法的研究现状.pdfVIP

下载本文档

11
0
约4.49千字
约 4页
2017-09-16 发布于重庆
举报
版权申诉

基于神经网络隐马尔可夫模型的混合语音识别方法的研究现状.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于神经网络/ 隐马尔可夫模型的混合语音识别方法的研究现状摘要：作为大词汇量连续语音识别系统的主流技术，隐马尔可夫模型（HMM ）方法已经取得了相当的成功。但是，由于HMM在理论上的一些缺陷，使得目前的连续语音识别系统只能在非常有限的范围内得到应用。也就是说，从根本意义上说，语音识别是一个尚未解决的问题，仍旧是一个科学上的问题，离工程化还有相当的距离。所以，不断地探索新模型与新方法对彻底解决这一问题至关重要。另一方面，近几年的研究表明，神经网络（ANN ）具有极强的对复杂模式的分类能力。在连续语音识别的研究中，理应考虑结合两者之长来提高识别系统的性能，尤其是声学层面上的识别率。本文旨在介绍国外这方面的前沿成果，并结合我们自己在这方面的工作，对其发展方向提出一些看法。关键词：神经网络，隐马尔可夫模型，混合方法。一. 概况近年来，自动语音识别的研究已经取得了非常大的进步，许多科研单位和大公司的语音识别系统在实验室中都表现出了较高的识别率。但是，这些识别系统在实际场合的应用效果是不能令人满意的，或者说，目前的识别系统只能在非常有限的范围内得到应用。为了根本解决语音识别问题，我们还必须不断地探索新模型与新方法。首先，我们回顾一下当前语音识别中最为成功的方法。语音的产生可以看作是由信息源通过一个有噪信道，把语言序列W转换为一个信号序列 S的过程[1]，如图1所示。因此，语音识别就是一个最大后验概率（MAP ）的解码问题。语言序列W 有噪信道语音信号S 语音信号S 通道解码语言序列W 图1 根据贝叶斯公式，该解码问题被表示为： A W P W P ( / ) ( ) arg max P (W / A) arg max W ∈Γ W ∈Γ P ( A) 其中A是声学特征向量，P(A/W)是声学模型，P(W)是语言模型，可以认为P(A)与P(W)无关 [2][3]，则（1）式等同于： arg max P(W / A) arg max P(A / W)P(W) W ∈Γ W ∈Γ 在识别系统的识别单元确定下来以后，通常对每个识别单元建立一个HMM ，并通过大量的语音数据来训练每个HMM 的参数，因此在识别过程中，P(A/W) 的求取就是计算声学观测向量与每个HMM 的相似度。二. HMM与ANN应用于语音识别时各自存在的一些问题 2.1 HMM 的特点 HMM在语音处理的各个领域中的应用都获得了巨大的成功，但它的一些缺陷也使系统性能难以进一步提高。我们不妨用表1来列举其用于语音识别时的优缺点[4]。用于连续语音识别的HMM方法优点缺点丰富的数学框架对模式的辨识能力差强有力的学习和解码方法要求声学特征内部各分量不相关对时间序列信号的处理能力强状态序列由一个一阶Morkov链产生表 1 从表1可以看出，为了用HMM来表示语音的产生，必须建立一些假设，在此基础上设计训练和识别算法，而这些假设与实际情况不一定相符，这正是HMM理论的缺陷所在。 2.2人工神经网络方法的特点利用神经方法进行连续语音识别的方法很多，比较有代表意义的有[5][6][7][8]等，它们共同的思想就是利用ANN强大的静态模式分类能力，结合H