使用位置资讯于中文连续语音辨识.pptVIP

下载本文档

1
0
约2.58千字
约 15页
2019-09-30 发布于天津
举报

使用位置资讯于中文连续语音辨识.ppt

使用位置資訊於中文連續語音辨識邱炫盛, 羅永典, 陳韋豪, 陳柏琳國立台灣師範大學資訊工程研究所大綱語言模型之研究文件主題相關語言模型混合主題式語言模型機率式潛藏語意分析位置相關語言模型位置性N連詞模型位置性機率式潛藏語意分析模型之比較實驗結果與分析結論與未來展望語言模型之研究語言模型代表自然語言規則或語意，可應用於各種自然語言處理的領域中語言模型於語音辨識輔助解決聲學上的混淆，限制辨識結果符合人類語言風格使用不同資訊之語言模型詞相關語言模型詞類別相關語言模型語句結構相關語言模型文件主題相關語言模型文件主題相關語言模型混合主題式語言模型透過結合不同主題之語言模型呈現語料中不同主題性的詞分布訓練階段以文件為單位，將訓練語料根據不同的主題分群，然後分別對每一份具有相同或相似主題的語料訓練語言模型辨識階段結合不同主題之語言模型，並於辨識過程中調整權重文件主題相關語言模型(續) 機率式潛藏語意分析透過隱藏的主題，表示詞與文件(歷史詞序列)的關係訓練階段最大化訓練語料相似度估測辨識階段最大化歷史詞序列相似度估測為一詞袋(Bag of Words)模型，需與N連模型結合線性插補位置相關語言模型詞位置資訊第一段主要是主播的開場白或是一些連接詞第二段則是主要新聞事件的內容，包含一些內容詞第三段也是新聞的內容或是一些承接前幾段的說法第四段則是新聞報導的結束及記者名字等第一與第四段較具有明顯特性，而中間段落則因為是新聞事件則較無規律結構化的文件之中，會有位置的資訊可以使用，如果文件群有相似的文件結構，可以收集其統計資訊位置相關語言模型(續) 位置性N連詞模型使用結構化文件之位置資訊訓練階段將位置相同的文件段落合併成新的文件集，接著分別針對新的文件集訓練N 連詞模型辨識階段於詞圖重計分階段，比較歷史詞序列與第一名(Top 1)序列的長度，判斷目前欲辨識詞的段落，使用固定位置之語言模型直接使用結合之位置性N連詞模型，並線上調整權重以三連模型為例位置相關語言模型(續) 位置性機率式潛藏語意分析同時使用位置及主題資訊訓練階段最大化訓練語料相似度估測辨識階段最大化歷史詞序列相似度估測與亦可由歷史詞序列與第一名(Top 1)序列決定為一詞袋(Bag of Words)模型，需與N連模型結合模型之比較混合主題式語言模型與位置性N連詞模型混合主題式語言模型需要額外的分群技術，根據文件的主題做分群，每一群由許多相似的文件所組成，訓練不同主題之語言模型位置性N連詞模型需要相似的文件結構，根據文件的段落做分割，再將同一段落收集起來，訓練不同段落之語言模型模型複雜度相同，皆為，為分群或分段數模型之比較(續) 機率式潛藏語意分析與位置性機率式潛藏語意分析模型複雜度機率式潛藏語意分析位置性機率式潛藏語意分析位置性機率式潛藏語意分析可視為兩層主題之機率式潛藏語意分析實驗設定語音特徵異質性線性鑑別分析配合最大相似度線性轉換做為語音特徵，並使用倒頻譜正規化法聲學模型訓練集為公視廣播新聞2001, 2002年，約25.5小時最大化相似度及最小化音素錯誤訓練語言模型背景語言模型語料為中央通訊社新聞2001, 2002年，約八千萬詞語言資訊調適語料為公視廣播新聞2001, 2002年轉寫文字，約一百萬詞測試語料公視廣播新聞2003年，發展集1.5小時，評估集1.5小時辨識實驗進行於詞圖重計分階段，相關參數設定於發展集調整至最佳後再用於評估集實驗結果實驗結果(續) 結論與未來展望本論文主要探討詞位置資訊，詞在文件中的位置資訊可視為文件的樣式我們提出了位置相關語言模型，如位置性N連詞模型與位置性機率式潛藏語意分析，將位置資訊整合至現有的模型，如N連詞模型和機率式潛藏語意分析等未來可嘗試整合詞位置資訊於其他資訊相關語言模型，如詞主題混合模型等，或是探討詞於不同層次的位置資訊，如語句，段落等謝謝各位敬請指教第一到第四段：就是說、這樣子、這邊第四段：公視、編譯、採訪、瑤、蕙、綾、諭、煌、保羅第三段：比方說、譬如說、上面、或者、大概、老師、身分、裡面、小孩子第二段：蠻、大概、米酒、那麼、我、我們、念書、了解、裡面、珊瑚第一段：您、公布、宣布、轉到、鏡頭、下面、專題報導、晚安、接下來 372.26 18.80 16 377.64 18.95 8 384.26 19.17 4 385.90 19.06 3 388.00 19.12 2 434.46 19.

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

使用位置资讯于中文连续语音辨识.pptVIP