基于DSP的非特定人孤立词语音识别系统的研究和设计(王光东)教案详解.ppt

基于DSP的非特定人孤立词语音识别系统的研究和设计(王光东)教案详解.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Part 4 特征参数的提取与仿真 基本的特征参数主要有:能量、幅度、过零率、频谱、倒谱和功率谱等。 常用的常用的语音识别参数有线性预测参数(LPC),线性预测倒谱参数(LPCC)和Mel尺度倒谱参数(MFCC)等。 语音识别系统往往由于其训练使用不含噪的语音而导致识别的准确率在含噪的真实环境中会有大幅度的下降,其原因主要在于训练集和测试集的差别,因此识别系统的鲁棒性是其走向实用必须解决好的一个重要问题。 在此,详细介绍下基于特征空间的鲁棒语音识别技术——特征提取。 (这段话的含义) 特征提取是对语音信号进行数学处理后得到一个矢量序列,用这个矢量序列代表原始语音信号所携带的有用信息(去同存异)。在实际的语音识别系统中,特征参数的选择和提取是整个系统构建的基础,也是提高系统鲁棒性的理想方法。 一般语音信号的特征矢量可分为两类:第一类为时域特征矢量,即对语音信号的时域采样直接构成矢量序列,如端点检测中常用的幅度、能量和过零率等等;第二类为变换域特征矢量,即对语音信号进行某种变换后产生的矢量序列,如线性预测系数 LPC、LPC倒谱系数、短时频谱以及Mel频率倒谱系数MFCC等。其中MFCC是通过对人耳听觉系统的仿真而获得符合人耳听觉特性的语音特征参数,而不像LPCC那样依赖全极点语音信号产生模型的假定,因此具有良好的鲁棒性,被多数识别系统所采用。所以我们采用了MFCC参数作为基线识别参数。 4.1 LPC(线性预测系数) 模拟人发音器官的声管模型,是一种基于语音合成的参数模型。在语音识别系统中很少直接使用LPC系统,而是由LPC系数推出的另一种参数LPCC。 LPCC(线性预测倒谱系数)是LPC在倒谱域中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC的优点是计算量小,易于实现,对元音有较好的描述能力,缺点是对辅音描述能力较差。 LPC线性预测仿真 LPC模型是基于发音模型建立的,LPCC系数也是一种基于合成的系数,这种参数没有充分利用人耳的听觉特性。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。 4.2 MFCC系数(Mel频率倒谱系数) 人耳对不同频率的语音具有不同的感知能力,实验发现,在1000Hz以下,感知能力与频率成线性关系,而在I000Hz以上,感知能力则与频率成对数关系。为了模拟人耳对不同频率语音的感知特性,人们提出了Mel频率的概念,其意义为:1Mel为1000Hz的音调感知程度的l/1000。频率f与Mel频率B之间的转换关系如下图所示,其转换公式为: Mel频率倒谱系数即为基于上述Mel频率的概念而提出的,其提取及计算过程如下图所示: 提取及计算过程解释如下: (1)原始语音信号s(n)经过预加重、分帧、加窗、端点检测等处理,得到每个语音帧的时域信号x(n)。 (2)将时域信号x(n)后补若干0以形成长为N(一般取N=512)的序列,然后经过离散傅立叶变换DFT(或FFT)后得到线性频谱X(k),转换公式为: 在实际应用中,常常通过快速傅立叶变换(FFT)般称之为DFT(或FFT)窗宽。 (3)将上述线性频谱通过Mel频率滤波器组得到Mel频率,滤波器组如下图所示: 其中Mel频率滤波器组为在语音的频谱范围内设置的若干个带通滤波器 ,M为滤波器的个数,滤波器的个数通常取为24一40之间,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值小时相邻f(m)之间的间隔也小,随着m的增加相邻f(m)的间隔逐渐变大。每个带通滤波器的传递函数为: f(m)定义为: (4)将上述对数频谱S(m)经过离散余弦变换(DCT)变换到倒频谱域,即可得到Mel频率倒谱系数(MFCC参数)c(n) MATLAB仿真结果如下: 从图中可以看出,在噪声比较大的时候,其鲁棒性能不是很好。 Part5 模式匹配法与仿真 DTW(Dynamic Time Warping,动态时间规整)语音识别中较为经典的一种算法。 它寻找一个规整函数,将测试矢量的时间轴i非线性地映射到参考模板的时间轴j上,并使该函数满足: D就是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间存在的最大声学相似性。 动态时间规正法(DTW)的原理 Ck=(il

文档评论(0)

武神赵子龙 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档