关于MFCC参数.docVIP

下载本文档

4
0
约2.89千字
约 6页
2018-05-28 发布于湖北
举报

关于MFCC参数.doc

关于MFCC参作了一段时间的语音识别，看到坛子里有人问起MFCC，现在就整理一下有关MFCC参数的资料。在語音辨識（Speech Recognition）和語者辨識（Speaker Recognition）方面，最常用到的語音特徵就是「梅爾倒頻譜係數」（Mel-scale Frequency Cepstral Coefficients，簡稱MFCC），此參數考慮到人耳對不同頻率的感受程度，因此特別適合用在語音辨識。下面简单的介绍一下求解MFCC的过程。1.預強調（Pre-emphasis）：將語音訊號 s(n) 通過一個高通濾波器。H(z)=1-a*z-1 系数其中 a 介於 0.9 和 1.0 之間。若以時域的運算式來表示，預強調後的訊號 s2(n) 為 s2(n) = s(n) - a*s(n-1) 這個目的就是為了消除發聲過程中聲帶和嘴唇的效應，來補償語音信號受到發音系統所壓抑的高頻部分。（另一種說法則是要突顯在高頻的共振峰。）2.音框化（Frame blocking）：先將 N 個取樣點集合成一個觀測單位，稱為音框（Frame），通常 N 的值是 256 或 512，涵蓋的時間約為 20~30 ms 左右。為了避免相鄰兩音框的變化過大，所以我們會讓兩相鄰因框之間有一段重疊區域，此重疊區域包含了 M 個取樣點，通常 M 的值約是 N 的一半或 1/3。通常語

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

关于MFCC参数.docVIP