关于MFCC参数.docVIP

  • 4
  • 0
  • 约2.89千字
  • 约 6页
  • 2018-05-28 发布于湖北
  • 举报
关于MFCC参作了一段时间的语音识别,看到坛子里有人问起MFCC,现在就整理一下有关MFCC参数的资料。 在語音辨識(Speech Recognition)和語者辨識(Speaker Recognition)方面,最常用到的語音特徵就是「梅爾倒頻譜係數」(Mel-scale Frequency Cepstral Coefficients,簡稱MFCC),此參數考慮到人耳對不同頻率的感受程度,因此特別適合用在語音辨識。下面简单的介绍一下求解MFCC的过程。 1.預強調(Pre-emphasis):將語音訊號 s(n) 通過一個高通濾波器。 H(z)=1-a*z-1 系数其中 a 介於 0.9 和 1.0 之間。若以時域的運算式來表示,預強調後的訊號 s2(n) 為 s2(n) = s(n) - a*s(n-1) 這個目的就是為了消除發聲過程中聲帶和嘴唇的效應,來補償語音信號受到發音系統所壓抑的高頻部分。(另一種說法則是要突顯在高頻的共振峰。) 2.音框化(Frame blocking):先將 N 個取樣點集合成一個觀測單位,稱為音框(Frame),通常 N 的值是 256 或 512,涵蓋的時間約為 20~30 ms 左右。為了避免相鄰兩音框的變化過大,所以我們會讓兩相鄰因框之間有一段重疊區域,此重疊區域包含了 M 個取樣點,通常 M 的值約是 N 的一半或 1/3。通常語

文档评论(0)

1亿VIP精品文档

相关文档