语音识别方法.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别方法

语音识别的方法 演讲者:刘德体 动态时间规整(DTW) 矢量量化(VQ) 隐马尔可夫模型(HMM) 混合高斯-通用模型(GMM_UBM) 支持向量机(SVM) 动态时间规整(DTW) 主要问题 不同的人所发的语音信号,其模式有很大的差异,即使是同一个人,在不同的时间由于发声方法不同,会产生速度不同及其他语音特征参数的变化。 解决方法 采用动态规划(DP)的方法,解决发音长短不一的模板匹配问题。 DTW原理 参考模板:{R(1),R(2),…R(m),…R(M)} m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。 测试模板:{T(1),T(2),…T(n),…T(N)} n为测试语音的时序标号,n=1为起点帧,n=N为终点帧,N为测试模板语音帧总数,T(n)为第n帧的语音特征矢量。 条件:参考模板与测试模板采用相同类型的特征矢量(如MFCC系数、LPCC系数)、相同的帧长、相同的窗函数和相同的帧移。 如果N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。采用动态规划(DP)的方法,方法可以通过图1来解释: 为了描述这条路径,假设路径通过的所有格点依次为: 路径可以用函数表示为: 为了使路径不至于过于倾斜,约束斜率在0~2之间,如果路径通过了格点 ,那么下一个通过的格点 只可能是下列三种情况之一: 用η表示上述三个约束条件求最佳路径的问题可以归结为满足约束条件η时,求最佳路径函数m=Φ(i),使得沿路径的累积距离达到最小值。 搜索方法:搜索从点(1,1)出发,可以展开若干条满足η的路径,假设可以计算每条路径达到点 时的总的积累距离,具有最小累积距离者即为最佳路径。对于格点 ,到达它的累积距离为: 这里的 代表的是参考模板和测试模板相应帧间的距离。 矢量量化(VQ) 基本原理 矢量量化的基本原理是:将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量,这是仙农信息论中率失真理论在信源源码中的重要运用。 矢量量化的失真测度 失真测度是将输入矢量X用码本重构矢量Y来表征时所产生的误差或失真的度量方法,用d(x,y)表示。要考虑两方面:一是便于计算;二是它应当与语音质量的主观评价相一致。现实中,经常用距离来度量失真,但应注意到二者的差别。 距离的性质: (1)d(x,y)≥0;当x=y时有d(x,y)=0; (2)d(x,y)= d(y,x); (3)d(x,y)≤d(x,z)+d(z,y) 失真的性质: (1)d(x,y)≥0;当x=y时有d(x,y)=0; (2)与语音质量的主观评价相一致;(3)易于计算。 码本设计 已知M个训练矢量{x(n),1≤n≤M},假设这M个训练矢量有Mi个落在胞腔Ri中,则该胞腔的平均失真为: 在L级矢量量化器中,其平均失真最小的量化器,称为最佳矢量量化器,最佳矢量量化器应满足下列两个必要条件: (1)对给定的码本找出所有码本矢量的最佳的区域边以使平均失真最小,即寻找最佳划分; (2)按胞腔中平均失真最小的原则来选择码矢。假设经过这个原则得到胞腔Ri的码矢yi,则称yi为此胞腔的形心。表示为: yi=cent(Ri) 可以证明,胞腔的形心等于: 根据以上思想,则可以用来

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档