调变频谱分解之改良于强健性语音辨识Several Refinements of .PDFVIP

  • 1
  • 0
  • 约5.11千字
  • 约 3页
  • 2017-06-30 发布于天津
  • 举报

调变频谱分解之改良于强健性语音辨识Several Refinements of .PDF

调变频谱分解之改良于强健性语音辨识Several Refinements of

The 2015 Conference on Computational Linguistics and Speech Processing ROCLING 2015, pp. 100-102  The Association for Computational Linguistics and Chinese Language Processing 調變頻譜分解之改良於強健性語音辨識 Several Refinements of Modulation Spectrum Factorization for Robust Speech Recognition 張庭豪 Ting-Hao Chang, 洪孝宗 Hsiao-Tsung Hung, 陳柏琳 Berlin Chen 國立臺灣師範大學資訊工程學系 Department of Computer Science and Information Engineering National Taiwan Normal University ,, berlin}@ntnu.edu.tw 陳冠宇 Kuan-Yu Chen, 王新民 Hsin-Min Wang 中央研究院資訊科學研究所 Institute of Information Science, Academia Sinica {kychen, whm}@iis.sinica.edu.tw 摘要 絕大多數的自動語音辨識(Automatic Speech Recognition, ASR)系統常因為訓練與 測試環境的不匹配而致使效能嚴重地下降。有鑒於此,語音強健性(Robustness) 技術的發展長久以來一直是一個相當重要且熱門的研究領域。本論文之目的在於 探索新穎的語音強健性技術,期望透過簡單且有效的語音特徵調變頻譜處理[1-3] 來擷取較具強健性的語音特徵。為達此目的,本論文使用非負矩陣分解 (Nonnegative Matrix Factorization, NMF)[4-6]以及一些改進方法來分解調變頻譜 強度成分,以獲得較具強健性的語音特徵。本論文有下列幾項特色:(1)我們嘗 試結合稀疏性的想法[7] ,冀望能夠獲取到較具調變頻譜局部性的資訊以及重疊 較少的 NMF 基底向量表示;(2)藉助於局部不變性的概念[8] ,我們希望發音內容 相似的語句之調變頻譜強度成分能在 NMF 空間有越相近的向量表示,以保留兩 兩語句之間的關連程度;(3)在測試階段經由正規化 NMF 之編碼向量,更進一步 提升語音特徵之強健性;(4)我們結合上述三種 NMF 的改進方法。本論文的所有 實驗皆於國際通用的 Aurora-2 連續數字語音語料庫進行[9] ;一系列的實驗結果 顯示出,相較於僅使用梅爾倒頻譜特徵 (Mel-frequency Cepstral Coefficients, MFCC)之基礎系統,我們所提出的新穎語音強健性技術能夠顯著地增進語音辨 識效能,最終獲得 63.18%的相對詞錯誤率降低。另一方面,本論文也嘗試將我 們所提出的改進方法與一些知名的特徵強健技術做比較和結合,以驗證我們所提 100 出語音強健性技術之實用性。例如,當其與統計圖等化法(Histogram Equalization, HEQ)[10]結合時,能較僅使用統計圖等化法的語音辨識系統有 19.90%的相對詞 錯誤率降低;而當其與進階前端標準方法(Advanced Front-End Standard, AFE)[11] 結合時,能較僅使用進階前端標準方法的語音辨識系統有 2.73%的相對詞錯誤率 降低。 關鍵詞: 語音辨識、雜訊、強健性、調變頻譜、非負矩陣分解 致謝 本 論 文 之 研 究 承 蒙 教

文档评论(0)

1亿VIP精品文档

相关文档