以高斯混合模型表征器与语言模型为基础之语言辨认language.pdfVIP

下载本文档

2
0
约2.29万字
约 14页
2017-10-06 发布于天津
举报

以高斯混合模型表征器与语言模型为基础之语言辨认language.pdf

以高斯混合模型表征器与语言模型为基础之语言辨认language

以高斯混合模型表徵器與語言模型為基礎之語言辨認 Language Identification based on Gaussian Mixture Model Tokenizer and Language Model 張智傑、王小川 Zhi-Jie Chang and Hsiao-Chuan Wang 國立清華大學電機工程學系 Department of Electrical Engineering, National Tsing Hua University E-mail : piscesboy@micro.ee.nthu.edu.tw hcwang@ee.nthu.edu.tw 摘要本論文探討不需要標注資料的自動化語言辨認方法，基本觀念是建立高斯混合模型之表徵器，以表徵器輸出建立語言模型，加上切割處理與後端處理，提升語音資料的語言辨認正確率。所建議的系統架構，分別是串聯高斯混合模型表徵器和語言模型的 “高斯混合模型表徵器語言- 模型法”，以及將語言模型融合在表徵器裡面的 “連結聲學語言模型法- ” 兩種型式。由實驗結果觀察，加入切割處理的幫助，的確能夠提升系統的辨認正確率。關鍵詞：語言辨認、高斯混合模型、表徵器、語言模型一、緒論近代語言辨認的方式，主要是對訓練語音資料，轉換成類音素 ( phone-like ) 序列，以類音素序列建立 N-連文模型作為語言模型。在做語言辨認時，計算測試語音之類音素序列與語言模型之間的相似度，經過後端處理做出語言辨認的判斷所建議的系統有連結語言模型的音素。辨認法 ( PRLM, Phone Recognition Language Model )[1][2] 、連結語言模型的平行音素辨認法( PPRLM, Parallel-language PRLM )[ 1][2] 、高斯混合模型表徵器語言模型法- ( GMM-tokenizer-language model ) [2][3] 、以及連結聲學語言模型法- ( Joint-Acoustic Language Model ) [4] [5] 等方式。連結語言模型的音素辨認法 [1]是將輸入語料經過預先訓練好的音素辨認器 ( phone recognizer ) ，得出輸入語料的音素序列 ( phone sequence ) ，再由音素序列統計產生語言模型 ( language model ) 。在辨認過程中則是，計算測試語音的音素序列與 N-連文法 ( N-gram語言模) 型的相似度 ( likelihood ) ，對應相似度最高的語言模型，就是辨認結果。圖一是以中英日三個語言的辨認為例，展示語言辨認系統之示意圖輸入的測試語音。，分別經由中英日三個語言的音素辨認器，產生三個不同的音素序列，將這三個不同的音素序列分別輸入到三個語言所建立的語言模型，得出九個相似度值，後端處理器對這九個相似度值做運算，產生最後的辨認結果。圖一、連結語言模型的音素辨認法表徵器語言模型法的系統- ，需要有標註好的訓練語料做為音素辨認器訓練之用，要人工的介入才能完成系統建構 ;因此有研究者提出基本概念相似，但不需人工幫助的高斯混合模型表徵器語言模型系統- 。其作法是將高斯混合模型的各個高斯機率密度函式 (Gaussian probability density function)視為一個量化單位，給予模型中的每個高斯分布固定的表徵 ( token ) 值，將一個音框在各個高斯分布的機率值計算出來後，選擇機率最大的高斯分布作為表徵，視為此音框的代表值。對於輸入的測試語料，以高斯混合模型的表徵值序列 ( token s

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

以高斯混合模型表征器与语言模型为基础之语言辨认language.pdfVIP