汉语数码语音识别分析毕业设计第二章.docVIP

下载本文档

1
0
约1.15万字
约 21页
2019-06-01 发布于浙江
举报
版权申诉

汉语数码语音识别分析毕业设计第二章.doc

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第二章汉语数码语音的特征提取及端点检测方法分析 §2.1 语音特征参数提取 2.1.1 语音特征参数：LPCC和MFCC 在语音识别系统中, 模拟的语音信号在完成A/D转换后成为数字信号, 但时域上的语音信号很难直接用于识别, 因此我们需要从语音信号中提取语音的特征，一方面可以获得语音的本质特征, 另一方面也起到数据压缩的作用。目前通用的特征提取方法是基于语音帧的，即将语音信号分为有重叠的若干帧，对每一帧提取语音特征。例如采用的语音库采样率为11kHz，因此我们采用的帧长为220个采样点(即20ms)，帧步长（即每一帧语音与上一帧语音不重迭的长度）为110个采样点(即10ms)。现有语音识别系统采用的最主要的两种语音特征包括：线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)。该特征是基于语音信号为自回归信号的假设，利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小，对元音有较好的描述能力，其缺点在于对辅音的描述能力较差，抗噪声性能较差。 Mel频标倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。该特征考虑了人耳的听觉特性，将频谱转化为基于Mel频标的非线性频谱，然后转换到倒谱域上。由于充分模拟了人的听觉特性，而且没有任何前提假设，MFCC参数具有识别性能和抗噪能力。本文采用MFCC参数为语音特征参数。 2.1.2 MFCC参数的优点与LPCC参数相比，MFCC参数具有以下优点： 1．语音的信息大多集中在低频部分，而高频部分易受环境噪声干扰。MFCC参数将线性频标转化为Mel频标，强调语音的低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰。LPCC参数是基于线性频标的，所以没有这一特点。 2．MFCC参数无任何前提假设，在各种情况下均可使用。而LPCC参数假定所处理的信号为AR信号，对于动态特性较强的辅音，这个假设并不严格成立，而汉语数码语音识别需要对辅音有较强的分辨能力，如“6”和“9”，“1”和“6”等，所以MFCC参数在汉语数码语音识别中优于LPCC参数。另外，当噪声存在时，AR信号会变为ARMA信号： (2.1) 其中H()为受噪声污染的信号功率谱，1 / A()为AR信号功率谱，为噪声功率。这会给LPC分析的结果带来较大误差。因此，MFCC参数的抗噪声能力也优于LPCC参数。 3．MFCC参数提取过程中需要FFT变换，我们可以由此顺便获得语音信号频域上的全部信息。而以后将要介绍的端点检测、语音分段、鼻音特征提取等算法都要利用到语音的频域信息，因此MFCC参数的提取可以节省掉以上算法FFT的计算量。 2.1.3 MFCC参数提取的具体步骤 1．假定已有一帧采样语音，N为帧长。为方便后面所需的FFT，我们取N＝256。对加Hamming窗后作N点FFT，将时域信号转化为频域分量。 2．将线性频标转化为Mel频标。转化方法是将频域信号通过24个三角滤波器，其中中心频率在1000Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布，1000Hz以上为等比数列分布。三角滤波器的输出则为：，i = 1,2,....,24 (2.2) 其中为频谱上第k个频谱点的能量, 为第i个滤波器的输出, 为第i个滤波器的中心频率。 3．用离散余弦变换（Discrete Cosine Transformation, DCT）将滤波器输出变换到倒谱域： k = 1,2,...,P (2.3) 其中P为MFCC参数的阶数，我们取P＝12。即为所求的MFCC参数。求出MFCC参数后，我们按式(2.3)对其进行加权，并按式(2.4)计算差分MFCC参数。 (2.4) (2.5) 其中下标l与l-k表示第l与l-k帧。故最后提取的特征参数为24维的特征矢量，包括12维MFCC参数和12维差分MFCC参数。 §2.2 共振峰轨迹提取 2.2.1 共振峰提取方法共振峰是区分语音的本质特征。由于易混语音对“2”和“8”的区别特征表现在第二共振峰和第三共振峰的上升或下降上，即“8”中塞音过渡段第二、第三共振峰的上升和“2”中儿化音第三共振峰的下降，所以我们可以提取共振峰轨迹以提高“2”和“8”的辨识率。目前常用的共振峰提取方法大致可以分为三类： 1