由HTK实现小词汇量孤立词识别.pptVIP

下载本文档

21
0
约2.08千字
约 25页
2018-06-24 发布于浙江
举报
版权申诉

由HTK实现小词汇量孤立词识别.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

由HTK实现小词汇量孤立词识别

由HTK实现小词汇量孤立词识别答辩人：张泽昕指导教师：王金芳主要内容研究背景及意义关于HMM HTK实现过程 4 1 2 3 整体实现过程结果及展望 5 研究背景及意义人类从外界获得信息的方式大致有四种：视觉听觉触觉嗅觉视觉和听觉已经应用于人机交互中，其中，视觉交互的发展已经十分成熟，而语音信号处理技术（听觉交互）的发展尚且没有达到人们所希望的效果。因此，对语音信号处理的研究现已成为世界研究热点之一。语音识别的运用语音识别的目的就是是研发一种机器或软件，使其具有“听觉”，即以人类的语音作为输入，以理解后做出的相应的反应为输出。而孤立词识别凭借着识别准确度率高、具有较强使用价值等优点打开了广阔的应用前景，例如：语音拨号地址查询音乐检索孤立词识别难点孤立词识别技术的难点有以下几个方面： 1 系统在面对环境变化时的稳定性从开发环境的理想到现实环境的嘈杂，导致系统的识别稳定性无法达到预期的要求。 2 系统词汇的变化（增加）生活中，每天都会有大量新词汇产生，这导致模型训练和识别难度加大，系统识别能力下降。 3 选取识别基元如何选择识别基元，才能在稳定性（大基元）和灵活性（小基元）间达到最佳的取舍，是研究难点。整体实现流程预处理预处理模块，是对由用户录入的语音信号进行初步处理处理，其目的是滤除与语音识别无关的或关系较小的、会产生负面影响的信息等，并对语音进行端点检测。该模块要完成以下工作：采样量化编码预加重语音分帧预处理滤除与语音识别无关的或关系较小的、会产生负面影响的信息，需要有滤波器完成。预加重预加重的目的是为了使语音信号的频谱更加平坦，响应函数为语音分帧语音分帧是为了获得一个准稳态过程，以方便对语音信号进行理论分析。加汉明窗可有效克服频率泄漏现象。特征提取通过话筒采集到的语音信号中含有很多冗余的信息，只有从语音信号中提取出的表示其特性关键参数来表征其特性，才可以为更语音模型库的建立创造良好的前提条件。由于Mel频率滤波器组对人耳的拟合精确度较高，故相关研究人员将Mel频率的倒谱系数（MFCC）视为一种理想的特征参数。建立声学模型库建立声学模型库最主要是，考虑两方面的问题，即识别基元选择问题和声学模型的训练问题。语音识别的准确度（识别性能）与以什么训练方式得到模板有很大关系。 1 偶然训练法（单一用户、小词汇量） 2 多模板平均法（重复朗读、特征矢量序列、动态时间规整DTW取平均） 3 聚类训练法（用于非特定人的语音识别）模型匹配 1 语音间相似度度量。参考模板测试模板用失真度 2 相似度评估方法声学得分音节得分顺序匹配得分语义相似度得分来度量相似度。关于HMM HMM模型是一个双重随机过程，作为观测者，他只能通过观测值看到状态间的转移，即由表象感知内在。“隐”字在此处得到了鲜明地体现，“隐马尔科夫模型”由此得名。 “球缸模型”常用来描述HMM。马尔科夫链： m+k时刻随机序列的状态仅与m时刻的有关 HMM定义表示为初始状态概率矢量状态转移概率矩阵状态数目状态可能观测值数目观测值概率矩阵 HMM基本问题及算法评估问题----前向-后向算法给定观测值序列O和模型，求由模型产出O的概率。解码问题----Viterbi算法给定观测值序列和模型，求最大似然状态序列。模型训练问题----Baum-Welch算法给定观测值序列，确定模型参数，使由该模型输出O的概率（条件概率）最大。 HMM状态数与识别率关系状态少，不可完全描述。状态多。识别难度大。识别基元选择与识别率的关系对于小词汇量孤立词识别，选择小的识别基元会有更好的效果 MFCC维数与识别率的关系 MFCC的维数越高，越能够准确地描述语音信号的特征，从而提高了识别的准确度。 HTK实现过程数据准备与模型训练 HTK实现过程数据预处理工具包： HLEd HLStats HSLab HCopy HList HQuant 模型训练工具包： HCompv Hinit HRest HERest HSmooth HHEd HEAdapt HTK实现过程识别与分析 HTK实现过程识别工具包： HVite HLRecsore HDecode 分析工具包： HResult HTK安装开始运行输入cmd 进入DOS操作页面用cd命令进入HTK文件夹，建立bin.win32文件夹在DOS窗口运行vcvars32 cd HTKLib nmake/f