孤立词语音识别程序.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
孤立词语音识别程序

信息处理仿真实验语音处理部分 实验目的 按所学相关语音处理的知识,自己设计一个孤立词语音识别程序,分析所设计系统的特性。熟悉不同模块间如何进行有效的组合,以及模块内的设计,重点掌握特征参数的提取和模式识别方法,并对不同的特征参数提取方法和模式匹配方法有大概的了解,知道其不同的优缺点。 实验内容 1、 熟悉预处理、特征参数提取、模式匹配三个模块的原理,并设计这三个模块的matlab子程序。 2、设计主程序,将上述3个模块合理组合构成一个系统,训练模板并测试。 实验原理及设计步骤 1、孤立词语音识别系统:先用端点检测将语音中有用的语音部分提取出来(即将头部和尾部的静音部分除掉),然后提取语音信号的Mel尺度倒谱参数(MFCC),进行动态归整(DTW算法)后与模板库里面的标准语音作比较,具体流程如下: 图3.1孤立词语音识别系统 2、各模块解析 ⑴预处理:包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。这里将预加重器和噪声滤波器放在下一个模块里,所以预处理主要进行端点检测以捕捉到数据中的语音信息。 端点检测采用双门限法来检测端点。同时,利用过零率检测清音,用短时能量检测浊音,两者配合。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。 在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。 在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要 两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。 而如果在过渡段中两个参数中任意一个超过了高门限,就可以确信进入语音段了。 一些突发性的噪声可以引发短时能量或过零率的数值很高,但是往往不能维持足够长的时间,这些可以通过设定最短时间门限来判别。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回 ⑵特征参数提取:常用的语音识别参数有线性预测参数(LPC),线性预测倒谱参数(LPCC)和Mel尺度倒谱参数(MFCC)等。这里提取语音信号的Mel尺度倒谱参数(MFCC),步骤如下: 图3.2特征参数提取 分析: ①预加重 ②加汉明窗 ③ FFT 这里直接采用现成的FFT快速算法。 ④对频谱进行三角滤波 程序采用归一化mel滤波器组系数 ⑤计算每个滤波器的输出能量 ⑥离散余弦变换(DCT)得到MFCC 通常协方差矩阵一般取对角阵,三角滤波器组的对数能量输出之间存在着很大的相关,采用 DCT 这种正交变换可以去除参数之间的相关性,从而使后端识别模型采用对角阵具有更高的识别率 ⑦归一化倒谱提升 ⑧计算差分系数并合并mfcc参数和一阶差分mfcc参数 将其作为一个整体,让参数更完备。 ⑶模式匹配:有矢量量化技术、DTW、HMM技术、人工神经网络技术。 目前,语音识别的匹配主要应用HMM和DTW两种算法。DTW算法由于没有一个有效地用统计方法进行训练的框架,也不容易将低层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大, 又由于DTW算法本身既简单又有效,但HMM算法要复杂得多。它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。鉴于此,DTW更适合本系统的要求。 DTW算法原理:该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。如果把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。 DTW算法可以直接按上面的描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。 无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。已存入模

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档