- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
M在语音识别和文字识别中的应用.PDF
北京邮电大学博1:学位论文
3.3HMM在语音识别和文字识别中的应用
lAL马尔可夫模型(HiddenMarkovModel,简称HMM),是一种典型的统计信
号处理方法。其基本理论是在1970年前后由Baum等人建立起来的,随后由CMU
的Baker和IBM的Jelinek等人将其应用到语音识别中。在80年代中期,由于
Bell实验室Rabine:等人对HMM的深入浅出的介绍[21[31,才逐渐使HMM为世
界各国从事语音处理的研究人员所了解和熟悉,进而成为一个研究热点。目前,
HMM已广泛应用于信号处理的的各个领域。
文献[41对1989年到200。年年底发表的、论文标题中包含关键词”Hiddenand
Markov(或者是缩写”HMM)的论文进行了检索,考虑到关于语音处理的文章过
多,对其进行了删减(大约占语音处理方面文章的加%,主要是过于陈旧或者是
难以找到的),共检索到了357篇文章,并按照下面的方式进行分类:
综合:对模型的描述,不涉及任何应用细节的,69篇
应用:常见的一些应用领域(见表1-1).268篇
其它应用:只有极少数文章出现的应用领域加篇
由表 1-2可见,HMM的应用是及其广泛的,特别是在语音处理领域、生物
学领域、文字识别领域的应用最为广泛。本节将主要讨论HMM在语音识别和文
字识别中的应用。
表 1-1常见的应用领域
领域 语 音 生 物 文字@ 信 号 通信 量候控制 声学 是济
处理 学 识别 处理 幼甲 t
文章数 129 37 27 22 20 15 7 4. 4 3
百分比% 48.13 13.81 10.07 821 7.46 5.60 2.61 1.49 1.48 1.12
注:@为图像处理和计算机视觉
1.3.1基于HMM的语音识别
语音识别就是研究让机器最终能听懂人类口述的自然语言的一门学科。听懂
有两种含意,第一种是将这种口述语言逐词(字)逐句地转换为相应的文字,例如
对口授文章作听写;第二种则是对口述语台中所包含的要求或询问作出正确的相
应,而不拘泥于所有词正确转换为书面文字。语音识别和语音合成相结合,即构
成一个完整的”人一机对话通讯系统”。
语音识别是HMM在模式识别中应用最早,也是最为成功的一个领域。HMM
能很好地描述语音信号的时变性和平稳性[(51,而且能够把可利用的语音学和语言
学信息用一个统一的HMM框架来描述,因此HMM 已经成为目前语音识别研究
的主流方法,目前很多成熟的连续语音识别系统都基于HMM的方法,如剑桥大
学的HTK系统(英文))16]和IBM公司的中文听写机系统(ViaVoice)11等。语音识别
的发展历史和现状,也说明了这一点。
第一章 绪论
1,语音识别的发展历史
语音识别起始于50年代,60年代末和70年代初语音识别最重要的发展是语
音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的发展.80年代语音
识别算法从模板匹配技术转向基于统计模型技术,人们研究从微观转向宏观,不
再刻意追求细化语音特征。而是更多从整体平均(统计)的角度来建立最佳的语音
识别系统。HMM是其中的一个典型,它能很好地描述语音信号的时变性和平稳
性.而巨能够把可利用的语音学和语言学信息用一个统一的HMM框架来描述。
HMM研究使大词汇量连续语音识别系统的开发成为可能。1988年,美国CMU
大学用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX。这
是世界上第一个高性能的非特定人、大字表、连续语音识别系统,开创了语音识
别的新时代。进入90年代之后,主要在细化模型的设计、参数提取和优化、以
及系统的自适应技术上取得了一些关键进展,语音识别技术进一步成熟,并开始
向市场提供产品pof
2、语音识别的现状
目前在语音识别研究领域非常活跃的课题为稳健语音识别、说话者自适应技
术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型
和自适应语言模型。研究的方向也越来越侧重于口语对话系统(a)。可
文档评论(0)