调变频谱分解之改良于强健性语音辨识Several Refinements of .PDFVIP

下载本文档

1
0
约5.11千字
约 3页
2017-06-30 发布于天津
举报

调变频谱分解之改良于强健性语音辨识Several Refinements of .PDF

调变频谱分解之改良于强健性语音辨识Several Refinements of

The 2015 Conference on Computational Linguistics and Speech Processing ROCLING 2015, pp. 100-102  The Association for Computational Linguistics and Chinese Language Processing 調變頻譜分解之改良於強健性語音辨識 Several Refinements of Modulation Spectrum Factorization for Robust Speech Recognition 張庭豪 Ting-Hao Chang, 洪孝宗 Hsiao-Tsung Hung, 陳柏琳 Berlin Chen 國立臺灣師範大學資訊工程學系 Department of Computer Science and Information Engineering National Taiwan Normal University ,, berlin}@ntnu.edu.tw 陳冠宇 Kuan-Yu Chen, 王新民 Hsin-Min Wang 中央研究院資訊科學研究所 Institute of Information Science, Academia Sinica {kychen, whm}@iis.sinica.edu.tw 摘要絕大多數的自動語音辨識(Automatic Speech Recognition, ASR)系統常因為訓練與測試環境的不匹配而致使效能嚴重地下降。有鑒於此，語音強健性(Robustness) 技術的發展長久以來一直是一個相當重要且熱門的研究領域。本論文之目的在於探索新穎的語音強健性技術，期望透過簡單且有效的語音特徵調變頻譜處理[1-3] 來擷取較具強健性的語音特徵。為達此目的，本論文使用非負矩陣分解 (Nonnegative Matrix Factorization, NMF)[4-6]以及一些改進方法來分解調變頻譜強度成分，以獲得較具強健性的語音特徵。本論文有下列幾項特色：(1)我們嘗試結合稀疏性的想法[7] ，冀望能夠獲取到較具調變頻譜局部性的資訊以及重疊較少的 NMF 基底向量表示；(2)藉助於局部不變性的概念[8] ，我們希望發音內容相似的語句之調變頻譜強度成分能在 NMF 空間有越相近的向量表示，以保留兩兩語句之間的關連程度；(3)在測試階段經由正規化 NMF 之編碼向量，更進一步提升語音特徵之強健性；(4)我們結合上述三種 NMF 的改進方法。本論文的所有實驗皆於國際通用的 Aurora-2 連續數字語音語料庫進行[9] ；一系列的實驗結果顯示出，相較於僅使用梅爾倒頻譜特徵 (Mel-frequency Cepstral Coefficients, MFCC)之基礎系統，我們所提出的新穎語音強健性技術能夠顯著地增進語音辨識效能，最終獲得 63.18%的相對詞錯誤率降低。另一方面，本論文也嘗試將我們所提出的改進方法與一些知名的特徵強健技術做比較和結合，以驗證我們所提 100 出語音強健性技術之實用性。例如，當其與統計圖等化法(Histogram Equalization, HEQ)[10]結合時，能較僅使用統計圖等化法的語音辨識系統有 19.90%的相對詞錯誤率降低；而當其與進階前端標準方法(Advanced Front-End Standard, AFE)[11] 結合時，能較僅使用進階前端標準方法的語音辨識系統有 2.73%的相對詞錯誤率降低。關鍵詞：語音辨識、雜訊、強健性、調變頻譜、非負矩陣分解致謝本論文之研究承蒙教

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

调变频谱分解之改良于强健性语音辨识Several Refinements of .PDFVIP