实证探究多种监别式语言模型於语音辨识之研究Empirical.PDF

实证探究多种监别式语言模型於语音辨识之研究Empirical.PDF

实证探究多种监别式语言模型於语音辨识之研究Empirical

實證探究多種鑑別式語言模型於語音辨識之研究實證探究多種鑑別式語言模型於語音辨識之研究 實證探究多種鑑別式語言模型於語音辨識之研究實證探究多種鑑別式語言模型於語音辨識之研究 Empirical Comparisons of Various Discriminative Language Models for Speech Recognition 賴敏軒 1, 黃邦烜 1, 陳冠宇 2, 陳柏琳 1 1 國立臺灣師範大學資訊工程學系 {698470623, 699470204, berlin}@.tw 2 中央研究院資訊科學研究所 kychen@.tw 摘要 傳統語言模型(Language Models)是藉由使用大量的文字語料訓練而成 ,以機率模型來描 述自然語言的規律性 。N 連(N-gram)語言模型是最常見的語言模型 ,被用來估測每一個 詞出現在已知前 N-1 個歷史詞之後的條件機率 。此外,傳統語言模型大多是以最大化相 似度為訓練 目標 ;因此,當它被使用於語音辨識上時,對於降低語音辨識錯誤率常會有 (Discriminative Language Model) 所侷限 。近年來,有別於傳統語言模型的鑑別式語言模型 陸續地被提出 ;與傳統語言模型不同的是 ,鑑別式語言模型是以最小化語音辨識錯誤率 做為訓練準則 ,期望所訓練出的語言模型可以幫助降低語音辨識的錯誤率 。本論文探究 基於不同訓練準則的鑑別式語言模型 ,分析各種鑑別式語言模型之基礎特性 ,並且比較 它們被使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時之效能 。同時,本論文亦提出將邊際(Margin)概念引入於鑑別式語言模型的訓 練準則中。實驗結果顯示 ,相較於傳統N 連語言模型 ,使用鑑別式語言模型能對於大 詞彙連續語音辨識有相當程度的幫助 ;而本論文所提出的基於邊際資訊之鑑別式語言模 型亦能夠進一步地提升語音辨識的正確率 。 關鍵詞 :語音辨識、鑑別式語言模型、邊際、訓練準則 一、緒論 在人與人的互動當中 ,語音是最自然且直接的表達方式之一。透過語音,人們可以彼此 溝通 ,傳達想法、感受以及情緒。因此 ,我們期望能讓電腦具備與人溝通的能力 ,能為 生活帶來便利性。要達到此目標 ,我們必須先對使用者輸入的語音訊號進行辨識 ;待轉 換成文字後,再對文字所欲表達的語意作理解 ,進而做出最適當的動作來回應使用者 。 將語音訊號轉換成文字的過程 ,可以透過自動語音辨識(Automatic Speech Recognition, ASR)技術 來完成 。在自動語音辨識的過程中 ,我們必須先將語音訊號做特徵擷取 (Feature Extraction) ,保留語音訊號中的聲學特性(Acoustic Characteristics) ,並轉換成能 使電腦容易處理的聲學特徵向量(Acoustic Feature Vector) ;利用這些聲學特徵向量 ,我 4 們可以為不同的音素(Phoneme)分別建立聲學模型(Acoustic Model) ,進而產生可能的候 選詞序列(Candidate Word Sequences) 。另一方面 ,我們也必須收集大量的文字訓練語 料,用以 統計 自然語言中各種詞序列的出現情 形 ,並藉此訓練語言模型 (Language Model) 。傳統語言模型是收集各種詞彙出現在自然語言中的詞頻數 ,經由最大化相似度 估測(Maximum Likelihood Estimation, MLE)來建立語言模型 。例如 ,N 連(N-gram)語言 模型[1]是估測每一個詞在其前面緊鄰 N-1 個歷史詞序列已知情況下的條件機率 ;它可 協助語音辨識器從所產生的候選詞序列中

文档评论(0)

1亿VIP精品文档

相关文档