- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HTK调用MATLAB语音识别的研究
基于HTK调用MATLAB的语音识别的研究
张戈,严欢,殷景华
(哈尔滨理工大学,哈尔滨,150080)
摘 要:根据HTK(Hidden Markov Model Toolket)原理,介绍基于HTK调用MATLAB的语音识别过程。利用HTK软件建立隐马尔科夫模型(HMM)对录制的语料进行训练和识别。修改HMM中参数(包含语音特征,声学模型等),再利用Matlab计算速度快及其编程开发节省时间优势来对其计算仿真,通过仿真图来显示各类参数的语音识别结果,分析参数对语音识别系统识别率的影响,以便改进并提高语音识别率,从而达到更好的效果。
关键词:HTK;HMM模型;声学模型
0 引言
语音识别是指及其通过学习实现从语音信号到文字符号的理解过程,是一种十分重要的人机交互方式。本文应用剑桥大学开发的专门用于建立和处理HMM的实验工具包HTK(Hidden Markov Model Toolket),主要用于语音识别领域。基于HTK的重复实验比较浪费时间的缺点,本文利用Matlab计算速度快及其循环编程开发节省时间优势处理语音识别中各个模块,使其节约开发时间,提高工作效率。
1 语音识别系统的总体框架
基于HMM的语音识别系统如图1所示:主要由特征提取单元、声学模型、识别网络、语音识别器等四部分组成[1]。
图1 语音识别系统
特征提取单元主要包括预处理和端点检测。语音库中的训练语料数据经信号处理确定音素的起始点和终点,便于在声学建模中加入静音和停顿音拟合为接近自然的语音。语音测试识别时需经过特征提取单元。
语音库由训练库和测试库组成,分别用于声
学模型的训练及其测试。声学模型通过建模
模拟人类的语音产生和感知特征。识别网络主要用来搜索最佳词序列,能够得出最大的识别概率作为可能的识别结果。语言模型应用统计语言模型,词典包括了在识别过程中所有可能遇到的单词,并定义每个单词的因素级的发音。
2 HTK工作原理
HTK工具包是由语音数据准备、HMM训练工具、识别工具、数据分析工具等组成。在语音数据准备时,用Cooledit等录音软件进行语音语料的采集[3]。
训练工具主要基于EM重估算法,利用HCompv、HInit用于估计一套初始模型参数,使用HRset、HERest命令用EM算法重估参数,对HMM训练主要应用上下文无关的建模方法,直接利用HERest进行嵌入式训练,利用EM算法对待训练的孤立音素进行重估,更新孤立音素对应的HMM参数,使系统中所有模型彼此间的距离增大,降低识别时的难度。不断调整系统模板的参数,使参数性能不断向最佳状态逼近[4]。
HVite是基于Viterbi算法用于识别未知的语音,HResults是模型性能分析工具,用于分析识别率。
3 语音声学建模及其优化
在选择识别单元时候,模型识别单元大小(词发音模型、字发音模型、半音节模型或 音素模型)对语音训练数据量大小、语音测试识别率有较大的影响[2]。由于本文实验数字语音、语言比较简单,所以选择音 素为识别基元。通过HTK的HLEd命令将音节转换为音素便于声学训练。在声学模型中通过matlab命令将*.wav文件转换为*.fea文opy.exe指令来产生MFCC文件。
声学模型是语音识别声学处理中比较关键的步骤,首先调用Matlab中genTemplateHmmFile.m文件来建立隐马尔科夫模型(HMM)模板文件, 在声学模型的训练中通过EM训练算法和利用HTK的HHEd来分裂HMM的状态数及增加混合高斯分量,更好地涵盖数据集和表达模型特征,求最佳参数优化模板,为每个声学单元建立一套声学模型参数。语音的识别特征参数的选取也是语音识别中重要的一方面[2]。当前最普及的是Mel频率倒谱参数(MFCC)符合人耳的听觉特性,在有信道噪声和频谱失真的情况下,MFCC参数的鲁棒性比较好。
在大语料库连续语音识别中选取基于上下文的相关模型,三音子的音素和音节模型与音节相比,识别性能有很大地提高[5]。
4 语音识别实验
语音采集通过cooledit声音处理软件完成,采集过程中,以0-9这10个语音数字作为实验对象,通过对这十个汉语数字进行多遍录音,生成29组(共580个声音样本),分别来自25个男生和4个女,前22个为inside test,后7个为outside test,兼顾男女声音的基频和最高频率,用11025Hz的采样率,单声道录音,量化为16 bits。
Inside test和 outside test的识别结果如图2和图3所示。
图2 Inside test HTK的识别结果
图3 outside test HTK的识别结果
从图2、3可以
您可能关注的文档
- 哈密顿图和欧拉图的一种判别方法.pdf
- 哈尔滨工业大学考博英语模拟真题及其解析.pdf
- 哈工大威海编译原理实验一词法分析.doc
- 哈希表及其查找.doc
- 哈希的基本概念.doc
- 哈希表—课程设计.doc
- 哈希表的设计与运用.doc
- 唐山市新生儿苯丙酮尿症与先天性甲状腺功能减低症发病现状分析与研究.pdf
- 唐岛湾网箱养殖对水环境的影响.pdf
- 唐氏综合症筛查中中位值计算方法的改进.pdf
- 【高华证券-2025研报】箭头制药公司(ARWR):第46届全球医疗保健会议——关键要点.pdf
- 【Bernstein-2025研报】耐克和阿迪达斯:宝胜- 5月的连续改善.pdf
- 【高华证券-2025研报】哥伦比亚:5月通胀低于预期,因节日价格正常化和租金增长放缓;年度通胀指标下降.pdf
- 【Bernstein-2025研报】联发科(2454):速评:联发科-若剔除外汇拖累,月度销售追踪略高于2025年第二季度市场预期.pdf
- 【高华证券-2025研报】Vista集团(VGL):小盘股片段:Vista集团(VGL;未覆盖):云转型加速.pdf
- 【高华证券-2025研报】法国巴黎银行(BNPP):法国巴黎银行(BNPP.PA):深入探讨个人理财业务.pdf
- 【Bernstein-2025研报】T-Mobile美国公司(TMUS):T-Mobile:西弗特仍是掌舵的合适人选.pdf
- 【Bernstein-2025研报】华纳兄弟探索公司(WBD):华纳兄弟探索公司:第一步-流媒体公司和线性电视公司。第二步?.pdf
- 【Bernstein-2025研报】台达电子工业股份有限公司(2308):台达电子月度销售:若不存在外汇逆风,2025年第二季度收入有望超预期.pdf
- 【Bernstein-2025研报】欧洲资本货物:电动革命:分化-资本货物正在离场?.pdf
文档评论(0)