调变频谱分解技术于强健语音辨识之研究investigatingmodulation.pdfVIP

下载本文档

2
0
约3.74万字
约 20页
2017-08-31 发布于天津
举报

调变频谱分解技术于强健语音辨识之研究investigatingmodulation.pdf

调变频谱分解技术于强健语音辨识之研究investigatingmodulation

Computational Linguistics and Chinese Language Processing Vol. 20, No. 2, December 2015, pp. 87-106 87  The Association for Computational Linguistics and Chinese Language Processing 調變頻譜分解技術於強健語音辨識之研究 Investigating Modulation Spectrum Factorization Techniques for Robust Speech Recognition      張庭豪、洪孝宗、陳冠宇、王新民、陳柏琳 Ting-Hao Chang, Hsiao-Tsung Hung, Kuan-Yu Chen, Hsin-Min Wang and Berlin Chen 摘要自動語音辨識(Automatic Speech Recognition, ASR)系統常因環境變異而導致效能嚴重地受影響；所以長久以來語音強健(Robustness)技術的發展是一個極為重要且熱門的研究領域。本論文旨在探究語音強健性技術，希望能透過有效的語音特徵調變頻譜處理來求取較具強健性的語音特徵。為此，我們使用非負矩陣分解(Nonnegative Matrix Factorization, NMF)以及一些改進方法來正規化調變頻譜強度成分，藉以獲得較具強健性的語音特徵。本論文有下列幾項貢獻。首先，結合稀疏性的概念，期望能夠求取到具調變頻譜局部性的資訊以及重疊較少的 NMF 基底向量表示。其次，基於局部不變性的概念，希望發音內容相似的語句之調變頻譜強度成分，在 NMF 空間有越相近的向量表示以維持語句間的關聯程度。再者，在測試階段經由正規化 NMF 之編碼向量，更進一步提升語音特徵之強健性。最後，我們也結合上述三種 NMF 的改進方法。本論文的所有實驗皆於國際通用的標竿語料──Aurora-2 連續數字資料庫進行；實驗結果顯示相較於僅使用梅爾倒頻譜特徵之基礎實驗，我們所提出的改進方法皆 國立臺灣師範大學資訊工程學系 Department of Computer Science Information Engineering, National Taiwan Normal University E-mail: ,, berlin}@ntnu.edu.tw 中央研究院資訊科學所 Institute of Information Science, Academia Sinica. E-mail: {kychen, whm}@iis.sinica.edu.tw The author for correspondence is Berlin Chen. 88 張庭豪等能顯著地降低語音辨識錯誤率。此外，我們也嘗試將所提出的改進方法與一些知名的特徵強健技術做比較和結合，以驗證這些改進方法之實用性。關鍵詞：語音辨識、雜訊、強健性、調變頻譜、非負矩陣分解 Abstract The performance of an automatic speech recognition (ASR) system often

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

调变频谱分解技术于强健语音辨识之研究investigatingmodulation.pdfVIP