- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用HTK建立连续语音识别系统PPT.pdf
应用HTK建立连续语音识别系统
王风娜
基本内容
知识回顾
HTK工具包
基于HMM的连续语音识别
应用HTK建立连续语音识别系统实例
知识回顾
HTK工具包
数据准备工具
HDMan、HCopy、HLEd、HSGen、HBuild、HLStats 、HParse
模型训练及优化工具
HERest、HInit、HRest、HHEd、HCompV
识别工具
HVite
性能评估工具
HResults、HRec
基于HMM的连续语音识别系统
HMM
三个基本问题:推理、学习、识别
模型初始状态
转移矩阵
{ ,λ, }πA B
状态产生观测向
量的概率分布
连续语音识别
模型结构:混合HMM(见附)
建模单元:可根据实际问题选择,对于大词汇量选择音素,进而扩展到三音素(词内或词间)
三音素捆绑:解决训练数据不足问题
基于数据的状态聚类:自底向上,不能给不可见音素建模(欧氏距离)
基于决策树的聚类:自顶向下,能为不可见音素建模(见附)
嵌入式训练:训练语音必须有对应的抄本文件
嵌入式识别:
* p(w)p(O|w)
wargmax ( p| w) Oargmax
w w p(O)
识别网络及N-gram语言模型
识别结果评估:
N D S − −
Correct 100×%
N
N D S I − − −
Accuracy 100×%
N
应用HTK建立连续语音识别的实例
数据准备
创建模型及学习
单音素模型
三音素模型
状态捆绑
增加高斯混合模型的个数
识别及评估
数据准备
训练及待识别语音文件(.wav)
训练语音包含的所有词(wlist )
训练语音的词级标注文件(.lab 或word.mlf )
wlist 中词的发音词典dict(见附)
HDMan -m -w wlist -n monophones1 -l dlog dict beep names
训练语音的音素级标注文件(.lab 或phones.mlf)
HLEd .led 生成音素序列文件phones0 (不包含sp )、phones1 (包含sp )
训练语音的特征文件(.mfc、.plp等)
HCopy config
训练语音词级网络wdnet(见附)
HPRase HBuild HParse
创建模型及学习(逐步细化)
1、单音素模型:
Proto文件:定义模型拓扑结构
3-state left-right
HCompV:统计训练数据全局均值、方差
HCompV -C conf
文档评论(0)