语音识别方法.ppt

下载文档 降价啦

2
0
约1.1万字
约 76页
2017-12-15 发布于江西
举报
版权申诉
保障服务

语音识别方法.ppt

1、本文档共76页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音识别方法

语音识别的方法演讲者：刘德体动态时间规整（DTW）矢量量化（VQ）隐马尔可夫模型（HMM）混合高斯-通用模型（GMM_UBM）支持向量机（SVM）动态时间规整（DTW）主要问题不同的人所发的语音信号，其模式有很大的差异，即使是同一个人，在不同的时间由于发声方法不同，会产生速度不同及其他语音特征参数的变化。解决方法采用动态规划（DP）的方法，解决发音长短不一的模板匹配问题。 DTW原理参考模板：{R(1),R(2),…R(m),…R(M)} m为训练语音帧的时序标号，m=1为起点语音帧，m=M为终点语音帧，M为该模板所包含的语音帧总数，R(m)为第m帧的语音特征矢量。测试模板：{T(1),T(2),…T(n),…T(N)} n为测试语音的时序标号，n=1为起点帧，n=N为终点帧，N为测试模板语音帧总数，T(n)为第n帧的语音特征矢量。条件：参考模板与测试模板采用相同类型的特征矢量（如MFCC系数、LPCC系数）、相同的帧长、相同的窗函数和相同的帧移。如果N=M则可以直接计算，否则要考虑将T(n)和R(m)对齐。采用动态规划(DP)的方法，方法可以通过图1来解释：为了描述这条路径，假设路径通过的所有格点依次为：路径可以用函数表示为：为了使路径不至于过于倾斜，约束斜率在0～2之间，如果路径通过了格点，那么下一个通过的格点只可能是下列三种情况之一：用η表示上述三个约束条件求最佳路径的问题可以归结为满足约束条件η时，求最佳路径函数m=Φ(i)，使得沿路径的累积距离达到最小值。搜索方法：搜索从点(1,1)出发，可以展开若干条满足η的路径，假设可以计算每条路径达到点时的总的积累距离，具有最小累积距离者即为最佳路径。对于格点，到达它的累积距离为：这里的代表的是参考模板和测试模板相应帧间的距离。矢量量化（VQ）基本原理矢量量化的基本原理是：将若干个标量数据组成一个矢量（或者是从一帧语音数据中提取的特征矢量）在多维空间给予整体量化，从而可以在信息量损失较小的情况下压缩数据量，这是仙农信息论中率失真理论在信源源码中的重要运用。矢量量化的失真测度失真测度是将输入矢量X用码本重构矢量Y来表征时所产生的误差或失真的度量方法，用d(x,y)表示。要考虑两方面：一是便于计算；二是它应当与语音质量的主观评价相一致。现实中，经常用距离来度量失真，但应注意到二者的差别。距离的性质：（1）d(x,y)≥0；当x=y时有d(x,y)=0；（2）d(x,y)= d(y,x)；（3）d(x,y)≤d(x,z)+d(z,y) 失真的性质：（1）d(x,y)≥0；当x=y时有d(x,y)=0；（2）与语音质量的主观评价相一致；（3）易于计算。码本设计已知M个训练矢量{x(n),1≤n≤M}，假设这M个训练矢量有Mi个落在胞腔Ri中，则该胞腔的平均失真为：在L级矢量量化器中，其平均失真最小的量化器，称为最佳矢量量化器，最佳矢量量化器应满足下列两个必要条件：（1）对给定的码本找出所有码本矢量的最佳的区域边以使平均失真最小，即寻找最佳划分；（2）按胞腔中平均失真最小的原则来选择码矢。假设经过这个原则得到胞腔Ri的码矢yi，则称yi为此胞腔的形心。表示为： yi=cent(Ri) 可以证明，胞腔的形心等于：根据以上思想，则可以用来