第10章 语音识别.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章 语音识别

第10章 语音识别 ② 根据识别的词汇量来分: 可以分为小词汇量(10~50个)、中等词汇量(50~200个)、大词汇量(200个以上),以及无限词汇量语音识别系统。 ③ 根据讲话人的范围来分: 单个特定讲话人 多讲话人 与讲话者无关 ④ 根据识别的方法来分: a.模式匹配法。 就是将测试语音与模板参数一一进行比较匹配,判决的依据是失真测度最小准则。 b.随机模型法。 是一种使用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果的方法。 c.概率语法分析法。 利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决,该方法使用于大长度范围的连续语言的识别。 ⑤ 根据识别的环境来分: 有隔音室、计算机房或公共场合。 ⑥ 根据传输系统来分: 有高质量话筒、电话及近讲话筒等。 ⑦ 根据说话人的类型来分: 有男声、女声、儿童声等。 根据比较输入模式与标准模式的方法不同,模式识别可以分为: 模式匹配法、统计识别法和句法模式识别法。 其中模式匹配法是最基本、最原理性的模式识别方法,在实际中应用最广泛。 目前大多数语音识别系统都是采用模式匹配原理。 语音识别的步骤分为两步: 第一步:学习或训练。 根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,这些参数作为标准模式由机器存储起来,形成标准模式库,这个语音参数库称为模式或样本。 第二步:识别。 根据语音识别整体模型,将输入的语音信号特征与存在的语音模板(参考模式)进行比较,找出一系列最优的与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可以给出计算机的识别结果。 1.预处理 在语音识别系统中,语音信号预处理主要包括反混叠滤波、模数转换、自动增益控制、去除声门激励及口唇辐射的影响及端点检测等。 2.特征提取 特征提取:从语音信号中获取一组能够描述语音信号特征参数的过程,即对不同的语音寻找其内在特征,由此来判别出未知语音。 特征提取的基本思想:将信号通过一次变换,去除冗余部分,将代表语音本质的特征参数抽取出来。 与特征提取相关的内容是特征间的距离测度。 特征的选择对识别效果至关重要。同时,还要考虑特征参数的计算量。 语音信号的特征主要有时域和频域两种。 时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等; 频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。 目前已有结合时间和频率的特征,即时频谱,充分利用了语音信号的时序信息;以及基于听觉模型的特征参数提取,如感知线性预测(PLP)分析。 3.距离测度 用于语音是别的距离测度有多种,如欧氏距离及其变形的距离、似然比距离、加权了超音段信息的识别测度,还有HMM之间的距离测度、主观感知的距离测度等。 4. 参考模式库 参考模式库使用训练与聚类的方法,由单讲话或多讲话者的多次重复的语音参数,从原始语音样本中去除冗余信息,保留关键数据,经过长时间的训练,再按照一定规则对数据加以聚类得到的。 5. 训练与识别方法 语音训练和识别的方法很多,如DTW、VQ、FSVQ、LVQ2、HMM、TDNN、模糊逻辑算法等,也可以混合使用上述各种方法。 DTW:动态时间规整;VQ:矢量量化; FSVQ:有限状态的矢量量化; LVQ2:学习矢量量化(LVQ)的改进; HMM:隐马尔可夫模型; TDNN:时延神经网络。 比较经典的方法有三种: 1)、DTW法:用输入的待识别语音模式和预存的参考模式进行模式匹配; 2)、HMM法:以统计方法为依据进行识别。 3)、VQ法:基于信息论中信源编码技术的识别。 此外,还有一些混合的派生出来的方法,如VQ/DTW、FSVQ/HMM等。 动态时间规整(DTW)算法的思想: 把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正。 DTW应用动态规划方法在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档