由HTK实现小词汇量孤立词识别.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
由HTK实现小词汇量孤立词识别

由HTK实现小词汇量孤立词识别 答辩人:张泽昕 指导教师:王金芳 主要内容 研究背景及意义 关于HMM HTK实现过程 4 1 2 3 整体实现过程 结果及展望 5 研究背景及意义 人类从外界获得信息的方式大致有四种: 视觉 听觉 触觉 嗅觉 视觉和听觉已经应用于人机交互中,其中,视觉交互的发展已经十分成熟,而语音信号处理技术(听觉交互)的发展尚且没有达到人们所希望的效果。因此,对语音信号处理的研究现已成为世界研究热点之一。 语音识别的运用 语音识别的目的就是是研发一种机器或软件,使其具有“听觉”,即以人类的语音作为输入,以理解后做出的相应的反应为输出。而孤立词识别凭借着识别准确度率高、具有较强使用价值等优点打开了广阔的应用前景,例如: 语音拨号 地址查询 音乐检索 孤立词识别难点 孤立词识别技术的难点有以下几个方面: 1 系统在面对环境变化时的稳定性 从开发环境的理想到现实环境的嘈杂,导致系统的识别稳定性无法达到预期的要求。 2 系统词汇的变化(增加) 生活中,每天都会有大量新词汇产生,这导致模型训练和识别难度加大,系统识别能力下降。 3 选取识别基元 如何选择识别基元,才能在稳定性(大基元)和灵活性(小基元)间达到最佳的取舍,是研究难点。 整体实现流程 预处理 预处理模块,是对由用户录入的语音信号进行初步处理处理,其目的是滤除与语音识别无关的或关系较小的、会产生负面影响的信息等,并对语音进行端点检测。该模块要完成以下工作: 采样 量化 编码 预加重 语音分帧 预处理 滤除与语音识别无关的或关系较小的、会产生负面影响的信息,需要有滤波器完成。 预加重 预加重的目的是为了使语音信号的频谱更加平坦,响应函数为 语音分帧 语音分帧是为了获得一个准稳态过程,以方便对语音信号进行理论分析。加汉明窗可有效克服频率泄漏现象。 特征提取 通过话筒采集到的语音信号中含有很多冗余的信息,只有从语音信号中提取出的表示其特性关键参数来表征其特性,才可以为更语音模型库的建立创造良好的前提条件。由于Mel频率滤波器组对人耳的拟合精确度较高,故相关研究人员将Mel频率的倒谱系数(MFCC)视为一种理想的特征参数。 建立声学模型库 建立声学模型库最主要是,考虑两方面的问题,即识别基元选择问题和声学模型的训练问题。语音识别的准确度(识别性能)与以什么训练方式得到模板有很大关系。 1 偶然训练法(单一用户、小词汇量) 2 多模板平均法(重复朗读、特征矢量序列、动态时间规整DTW取平均) 3 聚类训练法(用于非特定人的语音识别) 模型匹配 1 语音间相似度度量。 参考模板 测试模板 用失真度 2 相似度评估方法 声学得分 音节得分 顺序匹配得分 语义相似度得分 来度量相似度。 关于HMM HMM模型是一个双重随机过程,作为观测者,他只能通过观测值看到状态间的转移,即由表象感知内在。“隐”字在此处得到了鲜明地体现,“隐马尔科夫模型”由此得名。 “球缸模型”常用来描述HMM。 马尔科夫链: m+k时刻随机序列的状态仅与m时刻的有关 HMM定义 表示为 初始状态概率矢量 状态转移概率矩阵 状态数目 状态可能观测值数目 观测值概率矩阵 HMM基本问题及算法 评估问题----前向-后向算法 给定观测值序列O和模型,求由模型产出O的概率。 解码问题----Viterbi算法 给定观测值序列和模型,求最大似然状态序列。 模型训练问题----Baum-Welch算法 给定观测值序列,确定模型参数,使由该模型输出O的概率(条件概率)最大。 HMM状态数与识别率关系 状态少,不可完全描述。 状态多。识别难度大。 识别基元选择与识别率的关系 对于小词汇量孤立词识别, 选择小的识别基元会有更好的效果 MFCC维数与识别率的关系 MFCC的维数越高,越能够准确地描述语音信号的 特征,从而提高了识别的准确度。 HTK实现过程 数据准备与模型训练 HTK实现过程 数据预处理工具包: HLEd HLStats HSLab HCopy HList HQuant 模型训练工具包: HCompv Hinit HRest HERest HSmooth HHEd HEAdapt HTK实现过程 识别与分析 HTK实现过程 识别工具包: HVite HLRecsore HDecode 分析工具包: HResult HTK安装 开始 运行 输入cmd 进入DOS操作页面 用cd命令进入HTK文件夹,建立bin.win32文件夹 在DOS窗口运行vcvars32 cd HTKLib nmake/f

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档