- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于HMM的孤立词语音识别系统及HTK实验的简单介绍
刘振智
深圳大学 信息工程学院电子信息工程专业 广东 深圳 508060
摘要:隐马尔可夫模型作为语音信号的一种统计模型,在语音处理各个领域中获得了广泛的应用。本文主要介绍HMM的基本理论和基本思想,以及简单介绍HMM在孤立词语音识别系统中的应用等。
关键词:隐马尔可夫模型;孤立词识别;语音识别
0 引言
语音识别是机器通过识别和理解过程把人来的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语言,理解人的意图,并做出相应的反应。从技术上看,它属于多维模式识别和智能接口的范畴。语音识别技术是一项集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术,可广泛应用在信息处理、通信与电子系统、自动控制等领域。
就语音识别而言,可以按词汇量大小、发音方式、说话人和语音识别方法等方法分类。按词汇量大小分,可分为小词汇量、中词汇量和大词汇量;按发音方式分,语音识别可以分为孤立词识别、连接词识别、连续语音识别以及关键词检出等;按说话人分,可分为特定说话人和非特定说话人两种;从语音识别的方法分,有模板匹配法、随机模型法和概率语法分析法。
语音识别中,最简单的是特定人、小词汇量、孤立词的语音识别,最复杂最难解决的是非特定人、大词汇量、连续语音识别。无论是哪一种语音识别,当今采用的主流算法仍然是隐马尔科模型方法(HMM方法)。本论文主要简述基于HMM的孤立词语音识别系统以及HTK实验过程。
1 孤立词语音识别系统
语音识别系统本质上是一种模式识别系统,它的基本框图如下图所示。
语音识别的原理框图
在孤立词识别中,机器只是识别一个个孤立的音节、词或短语等,并给出具体识别结果。虽然孤立词语音识别的应用范围有限,并且研究策略会受到人的主动合作因素的影响,但对它进行研究能涉及到语音识别模式的最本质的问题,而且还是研究更复杂的连续语音识别问题的基础。
2 隐马尔科夫模型
2.1 基本概念。
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。
隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:
1. 隐含状态 S
这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如S1、S2、S3等等)
2. 可观测状态 O
在模型中与隐含状态相关联,可通过直接观测而得到。(例如O1、O2、O3等等,可观测状态的数目不一定要和隐含状态的数目一致。)
3. 初始状态概率矩阵 π
表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P3、P(S3)=p3,则初始状态概率矩阵 π=[ p1 p2 p3 ].
4. 隐含状态转移概率矩阵 A。
描述了HMM模型中各个状态之间的转移概率。
其中aij = P( Sj | Si ),1≤i,,j≤N.
表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。
5. 观测状态转移概率矩阵 B。
令N代表隐含状态数目,M代表可观测状态数目,则:
bjk = P( Ok| Sj ), 1≤i≤M,1≤j≤N.
表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为 Ok 的概率。
总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系
2.2 HMM基本算法
2.1.1
①前向算法
定义前向变量为:
αt(i) = P(o1,o2,…,ot,qt=i|λ)
初始化:对1=i=N,有
α1(i) = πibi(o1)
递推:对1=t=T-1,1=j=N,有
αt+1(i) =[∑αt(i)aij]bj(ot+1)
终止:
P(O|λ)= ∑αT(i)
②后向算法
定义后向变量为:
βt(i)=P(ot+1,ot+2,…,oT|qt=I,λ)
初始化:对1=i=N,有
βT(i)=1
递推:对t=T-1,T-2,…,1,1=i=N,有
βt(i)= ∑aijbj(ot+1)βt+1(j)
终止:
P(O|λ)= ∑β1(i)
2.2.2
这个算法解决给定一个观察值序列O=o1,o2,…,oT和一个模型λ=(π,A,B),如何确定一个最佳状态序列Q*=q1*
您可能关注的文档
- FISH技术在肿瘤病理诊断及肿瘤分子靶点治疗中的应用.ppt
- flash动画制作实践指导书.doc
- Flash个人主页毕业设计论文.doc
- Flash环保公益广告的设计与制作.doc
- FLASH入门技巧大全.doc
- Flash游戏开发流程.doc
- FLUENT动网格专题讨论.doc
- Fool愚人节的故事英语话剧剧本.doc
- FPC产品简介及设计规范.ppt
- FreeKaoYan中国药科大学考研生物化学试题.doc
- 基本面选股组合月报:大模型AI选股组合本年超额收益达6.60.pdf
- 可转债打新系列:安集转债,高端半导体材料供应商.pdf
- 可转债打新系列:伟测转债,国内头部第三方IC测试企业.pdf
- 联想集团PC换机周期下的价值重估.pdf
- 计算机行业跟踪:关税升级,国产突围.pdf
- 科技类指数基金专题研究报告:详解AI产业链指数及基金布局.pdf
- 计算机行业研究:AIAgent产品持续发布,关税对板块业绩影响较小.pdf
- 民士达深度报告:国内芳纶纸龙头,把握变局期崛起机遇.pdf
- 社会服务行业动态:全球首张民用无人驾驶载人航空器运营合格证落地,霸王茶姬冲击美股IPO.pdf
- 通信行业研究:特朗普关税令落地,长期看好国产算力链.pdf
文档评论(0)