实证探究多种监别式语言模型於语音辨识之研究Empirical.PDF

下载文档 降价啦

2
0
约4.98万字
约 17页
2018-10-07 发布于天津
举报
保障服务

实证探究多种监别式语言模型於语音辨识之研究Empirical.PDF

实证探究多种监别式语言模型於语音辨识之研究Empirical

實證探究多種鑑別式語言模型於語音辨識之研究實證探究多種鑑別式語言模型於語音辨識之研究實證探究多種鑑別式語言模型於語音辨識之研究實證探究多種鑑別式語言模型於語音辨識之研究 Empirical Comparisons of Various Discriminative Language Models for Speech Recognition 賴敏軒 1, 黃邦烜 1, 陳冠宇 2, 陳柏琳 1 1 國立臺灣師範大學資訊工程學系 {698470623, 699470204, berlin}@.tw 2 中央研究院資訊科學研究所 kychen@.tw 摘要傳統語言模型(Language Models)是藉由使用大量的文字語料訓練而成，以機率模型來描述自然語言的規律性。N 連(N-gram)語言模型是最常見的語言模型，被用來估測每一個詞出現在已知前 N-1 個歷史詞之後的條件機率。此外，傳統語言模型大多是以最大化相似度為訓練目標；因此，當它被使用於語音辨識上時，對於降低語音辨識錯誤率常會有 (Discriminative Language Model) 所侷限。近年來，有別於傳統語言模型的鑑別式語言模型陸續地被提出；與傳統語言模型不同的是，鑑別式語言模型是以最小化語音辨識錯誤率做為訓練準則，期望所訓練出的語言模型可以幫助降低語音辨識的錯誤率。本論文探究基於不同訓練準則的鑑別式語言模型，分析各種鑑別式語言模型之基礎特性，並且比較它們被使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時之效能。同時，本論文亦提出將邊際(Margin)概念引入於鑑別式語言模型的訓練準則中。實驗結果顯示，相較於傳統N 連語言模型，使用鑑別式語言模型能對於大詞彙連續語音辨識有相當程度的幫助；而本論文所提出的基於邊際資訊之鑑別式語言模型亦能夠進一步地提升語音辨識的正確率。關鍵詞：語音辨識、鑑別式語言模型、邊際、訓練準則一、緒論在人與人的互動當中，語音是最自然且直接的表達方式之一。透過語音，人們可以彼此溝通，傳達想法、感受以及情緒。因此，我們期望能讓電腦具備與人溝通的能力，能為生活帶來便利性。要達到此目標，我們必須先對使用者輸入的語音訊號進行辨識；待轉換成文字後，再對文字所欲表達的語意作理解，進而做出最適當的動作來回應使用者。將語音訊號轉換成文字的過程，可以透過自動語音辨識(Automatic Speech Recognition, ASR)技術來完成。在自動語音辨識的過程中，我們必須先將語音訊號做特徵擷取 (Feature Extraction) ，保留語音訊號中的聲學特性(Acoustic Characteristics) ，並轉換成能使電腦容易處理的聲學特徵向量(Acoustic Feature Vector) ；利用這些聲學特徵向量，我 4 們可以為不同的音素(Phoneme)分別建立聲學模型(Acoustic Model) ，進而產生可能的候選詞序列(Candidate Word Sequences) 。另一方面，我們也必須收集大量的文字訓練語料，用以統計自然語言中各種詞序列的出現情形，並藉此訓練語言模型 (Language Model) 。傳統語言模型是收集各種詞彙出現在自然語言中的詞頻數，經由最大化相似度估測(Maximum Likelihood Estimation, MLE)來建立語言模型。例如，N 連(N-gram)語言模型[1]是估測每一個詞在其前面緊鄰 N-1 個歷史詞序列已知情況下的條件機率；它可協助語音辨識器從所產生的候選詞序列中

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

实证探究多种监别式语言模型於语音辨识之研究Empirical.PDF