汉语数码语音识别分析毕业设计_第二章.docxVIP

汉语数码语音识别分析毕业设计_第二章.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章中文数字化语音的特征提取 使用端点检测方法进行分析 §2.1 语音特征参数提取 2.1.1 语音特征参数:LPCC和MFCC 在语音识别系统中,模拟语音信号经过A/D转换后变成数字信号,但时域的语音信号很难直接用于识别,所以我们需要提取语音的特征从语音信号。一方面,我们可以获取语音的本质特征,另一方面,也起到了数据压缩的作用。 目前通用的特征提取方法是基于语音帧,即将语音信号分成若干重叠的帧,对每一帧提取语音特征。例如,使用的语音库的采样率为11 kHz ,所以我们使用的帧长为 220 个采样点(即 20 ms ),帧步长(即每帧语音与语音库不重叠的长度)前一帧语音)为 110 个采样点(即 10 ms )。 现有语音识别系统使用的两个最重要的语音特征包括: 倒谱系数(LPCC) 。该特征基于语音信号为自回归信号的假设,通过线性预测分析得到倒谱系数。 LPCC参数的优点是计算量小,描述元音的能力好。缺点是描述辅音的能力较差,抗噪性能较差。 梅尔频率倒谱系数 (MFCC)。该特征考虑了人耳的听觉特性,将频谱转换为基于梅尔频率尺度的非线性频谱,然后将其转换为倒谱域。由于完全模拟了人类的听觉特性,在没有任何前提的情况下,MFCC参数具有识别性能和抗噪声能力。本文采用 MFCC 参数作为语音特征参数。 2.1.2 MFCC参数的优势 与LPCC参数相比,MFCC参数具有以下优点: 1、语音的信息大多集中在低频部分,而高频部分容易受到环境噪声的干扰。 MFCC参数将线性频率尺度转换为Mel频率尺度,强调语音的低频信息,从而突出有利于识别的信息,屏蔽噪声的干扰。 LPCC 参数是基于线性频率尺度的,所以没有这样的特征。 2. MFCC参数没有假设,可以在所有情况下使用。 LPCC 参数假设处理后的信号是 AR 信号。对于动态特性强的辅音,这个假设严格来说是不成立的,中文数字语音识别需要很强的辅音识别能力,比如“6”和“9”,“1”和“6”等,所以MFCC中文数字语音识别参数优于LPCC参数。此外,当存在噪声时,AR 信号变为 ARMA 信号: (2.1) 其中H(· )为噪声污染信号的功率谱, 1/ A ( · )为AR信号的功率谱,为噪声功率。这会给LPC分析的结果带来很大的误差。因此,MFCC 参数的抗噪能力也优于 LPCC 参数。 3、MFCC参数提取过程中需要进行FFT变换,顺便可以得到语音信号频域的所有信息。未来将要介绍的端点检测、语音分割、鼻音特征提取等算法都使用语音的频域信息,因此MFCC参数的提取可以节省上述算法FFT的计算量。 2.1.3 MFCC参数提取的具体步骤 1.假设已经有一帧采样语音,N为帧长。为了方便后面需要的 FFT,我们取 N=256。添加汉明窗后,进行N点FFT,将时域信号转换为频域分量。 2. 将线性频标转换为梅尔频标。转换方法是将频域信号通过 24 个三角滤波器,其中 12 个以 1000 Hz上下为中心。滤波器的中心频率区间在1000Hz以下呈线性分布,在1000Hz以上呈比例序列分布。那么三角滤波器的输出为: ,我= 1,2,....,24 (2.2) 其中是频谱上第 k 个谱点的能量,是第 i 个滤波器的输出,是第i 个滤波器的中心频率。 3 .使用离散余弦变换 ( DCT)将滤波器输出变换到倒谱域: k = 1,2,...,P( 2.3 ) 其中P为MFCC参数的阶数,我们取P =12。即所需的MFCC参数。 找到MFCC参数后,我们根据方程(2.3)对其进行加权,并根据方程(2.4)计算微分MFCC参数。 (2.4) (2.5) 下标l和lk代表第l和lk帧。因此,最终提取的特征参数为24维特征向量,包括12维MFCC参数和12维差分MFCC参数。 §2.2 共振峰轨迹提取 2.2.1 共振峰提取方法 共振峰是区分语音的基本特征。因为“2”和“8”在易混语音中的区别特征表现在第二共振峰和第三共振峰的上升或下降,即第二共振峰和第三共振峰的上升和下降。 “8”中的停顿过渡“2”中童声的第三共振峰下降,因此我们可以提取共振峰轨迹以提高“2”和“8”的识别率。 目前常用的共振峰提取方法大致可分为三类: 1、基于LPC分析的取峰法,主要方法是利用LPC分析得到通道频响曲线,然后选取其峰值点作为共振峰频率的估计值。 2. 寻根法,利用LPC分析求声道传递函数1 / A(z) ,用牛顿迭代法求解方程1 / A(z) = 0 ,求其极点作为共振峰频率估计. 3.基于动态规划的方法,即预先假设有K个共振峰,即K个全极点滤波器。然后,通过动态规划的方法确定K个滤波器的最优位置,使其频率响应特性与实际频率响应特性最为一致,上述K个滤波器的最优位置即为共振峰频率。 以上三种算法各有优缺点。选峰法计算量小,

文档评论(0)

xxmama + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档