主题语言模型於大词汇连续语音辨识之研究OntheUseofTopic.PDF

主题语言模型於大词汇连续语音辨识之研究OntheUseofTopic.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题语言模型於大词汇连续语音辨识之研究OntheUseofTopic

主題語言模型於大詞彙連續語音辨識之研究 On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition 陳冠孙 Kuan-Yu Chen 國立臺灣師範大學資訊工程學系 Department of Computer Science and Information Engineering National Taiwan Normal University 696470203@.tw 陳柏琳 Berlin Chen 國立臺灣師範大學資訊工程學系 Department of Computer Science and Information Engineering National Taiwan Normal University berlin@.tw 摘要 本論文研究使用主題資訊之語言模型(Language Model) 。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊 ,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model) ,包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA) ,以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM) 。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係,用以擷取出歷史詞序列長距離的潛藏語意資訊。本論文提 出一種新的主題模型,稱之為詞相鄰模型(Word Vicinity Model, WVM) ,它直接地基於 語言中詞與詞相互關聯資訊以建構一個機率式的潛藏主題空間,並且透過線性模型結合 的方式建立歷史詞序列之主題模型來預測下一個候選詞出現的可能性,藉此輔助傳統N 連語言模型。實驗結果顯示本論文所提出的詞相鄰模型不僅相較大部分主題模型具有較 低的模型參數量,同時能對於僅使用三連語言模型的基礎大詞彙連續語音辨識系統也有 相當程度的語音辨識率提升。 關鍵詞:主題模型、機率式潛藏語意分析、潛藏狄利克里分配、詞主題模型、詞相鄰模 型、大詞彙連續語音辨識。 179 一、緒論 語言是人與人之間最自然且有效率的溝通方式,不需透過其他的手勢或是動作,就 可以讓對方了解我們想要表達的意思。正因為如此,長久以來我們希望能讓機器聽懂人 類的語言、直接與人類對話溝通,開啟了語音辨識的研究。在進行語音辨識時,我們以 人類發聲的特性以及考量人耳聽覺感知為基礎,將數位語音訊號轉換成易於電腦處理的 聲學特徵向量(Acoustic Feature Vector)序列。接著,利用機率模型對於所收集到的訓練 語音聲學特徵向量建立起聲學模型(Acoustic Model)藉此在測試階段比對測試語句聲之 學特徵向量序列,判斷語句中所有可能的音素或詞段落。最後,使用語言模型(Language Model)來估測自然語言中每一個詞彙基於不同上下文之所可能出現的機率分布,用以解 決聲學模型的混淆、限制辨識的搜尋空間和評估各個候選詞序列在自然語言中的合理性, 因而輸出最有可能之候選詞序列。 當語言模型實際運用於語音辨識時,最主要的方式是從已解碼之歷史詞序列擷取短 距離的詞彙接連資訊、或是長距離的語意資訊

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档