新·第3讲语音信号处理第3.1~3.5章-精.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
预加重的频谱提升作用 Hamming window 2.修正的短时自相关函数 随着延迟k的增加,进行乘积和的项数在减少,导致自相关函数的幅度值随着延迟k的增加而下降 不利于基频估计 过大的N影响短时性 修正的短时自相关函数 严格意义不是自相关,而是互相关 在周期信号的周期的倍数上有峰值,与R(0)最接近的第一个最大值点仍然代表了基音周期的位置 利用语音的短时傅里叶变换求语音的短时谱 对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变换,DTFT),可得到短时傅里叶变换,其定义如下: 短时傅里叶变换的等效性 时宽、带宽积 为常数 窗形对STFT频谱的影响 矩形窗:频率分辨率高(主瓣狭窄尖锐),第一旁瓣衰减较小 汉明窗:在频率范围中的分辨率较高,且旁瓣的衰减大,具有频谱泄漏少的优点 窗对频谱的影响 临界带特征 求功率谱 确定临界带划分 计算临界带特征值 构建临界带特征 倒谱分析实例:MEL频率倒谱参数(MFCC) MFCC(Mel-Frequency Cepstral Coefficents MFCC) 着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。 所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。 MFCC MFCC的计算方法 FFT LPC变换法 线性频率与Mel频率间的对应关系如图: 梅尔频率 类似于临界频带的划分,Mel滤波器组将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。 Mel滤波器组 Mel频率 线性频率 ml ml ml 梅尔滤波器组的划分 在Mel频率轴上配置L个三角形滤波器, L的个数由信号的截止频率决定. 每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配. o(l),c(l)和h(l)分别是第l个三角形滤波器的下限,中心和上限频率 相邻三角形之间的下限,中心和上限频率的关系: 相邻三角形滤波器之间的关系 f c(l) h(l-1) o(l+1) l l-1 l+1 c(l+1) h(l) c(l-1) o(l+1) 梅尔滤波器组的划分 中心频率f(m)可以用下面的方法定义: 其中 、 为滤波器的频率应用范围的最低频率和最高频率, N为DFT(或FFT)窗宽, 为采样频率,而 为B的逆函数: 梅尔滤波器组的中心频率 当m值小时,相邻f(m)之间的间隔也小,随着m的增加 , f(m)的间隔逐渐变大 Mel频率滤波器组即为在语音的频谱范围内设置的若干个带通滤波器 M为滤波器的个数。每个滤波器具有三角滤波特性,其中心频率为f(m), 每个带通滤波器的传递函数为: 梅尔滤波器组的传递函数 幅度谱 Mel滤波 MFCC 梅尔频率倒谱系数 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的。 在语音特征的提取上,人类听觉系统做得非常好,它不仅能提取出语义信息, 而且能提取出说话人的个人特征,这些都是现有的语音识别系统所望尘莫及的。 MFCC 考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。 MFCC参数具有良好的识别性能和抗噪能力 使用的最广泛的特征之一 考虑了人耳的听觉生理特征 在语音识别中,相比于LPC系数、PARCOR系数,MFCC有更强的鲁棒性和可靠性 MFCC的应用 求MFCC流程 输入语音 预加重、分帧和加窗 FFT (Fast Fourier transform) 取绝对值或平方值 Mel滤波 取对数 DCT (Discrete cosine transform) 输出特征向量 √ √ √ √ 动态特征(Delta MFCC) √ 原始语音信号经过预加重、分帧和加窗处理后,需要将时域信号变换到频域。 常用的变换方法为 “傅立叶变换(DFT)”或者其快速算法“快速傅里叶变换(FFT)” 在实际应用中,常常通过FFT(蝶形算法)进行时域到频域的变换 求MFCC---FFT 将上述线性频谱利用前面提到的Mel滤波器组进行Mel滤波 Mel滤波器组 则有线性频谱到对数频谱的中传递函数为: 求MFCC:Mel滤波 在MFCC中,对滤波器组的输出使用了离散余弦变换(DCT)来去除相关性并获得倒谱系数c(n): 当n=0时,c(0)为第0阶MFCC,反应频谱能量 DCT (Discrete cosine transform) 求MFCC 倒谱的计算过程: DFT ln|·| 逆DFT 时域信号 信号频谱 对数谱 倒谱 求MFCC 参数转换公式 MFCC---LPC转换法 矩形窗:分辨率高,但第一旁瓣衰减很小,具有较大的上下冲 汉明窗:在频率范围内分辨率较高,旁瓣的衰减大,频谱泄漏少。 短时平均幅

文档评论(0)

feng111 + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档