- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言模型练与调适技术於
NTNU Speech Lab 語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究 摘要 語言模型(language model, LM)是用來擷取自然語言中的特徵,諸如前後文的資訊(contexture information)、語意資訊(semantic information)、主題資訊(topic information)等,利用這些資訊用來判斷詞句發生的可能性。 其用途可在語音辨識、手寫辨識、輸入法(input method editor, IME)、資訊檢索(information retrieval, IR)等。 語言模型訓練 訓練語料(training corpus),背景語言模型(background LM) 統計式語言模型:N連語言模型(N-gram LM) 語意資訊:潛藏語意分析(latent semantic analysis, LSA) 主題資訊:主題混合模型(topic mixture model, TMM) 摘要 訓練語料與測試語料間的不一致性(mismatch) 蒐集時間、領域(domain)、主題(topic) 語言模型調適 語言模型調適的目的 利用與辨識任務相關的資訊來彌補上述的不一致性 調適語料(adaptation corpus) 內容較訓練語料少 同時期(contemporary)、同領域(in-domain) 摘要 語言模型調適方法 以最大事後機率為基礎 詞頻數混合法(count merging)、模型插補法(model interpolation)、動態快取模型法(dynamic caching model) 以限制為基礎 最大熵值法(maximum entropy, ME)、最小鑑別資訊法(minimum discrimination information, MDI) 主要研究成果 主題混合模型 最大熵值法 大綱 語言模型的訓練 語言模型的調適 實驗環境設定及實驗結果 結論 統計式語言模型 統計式語言模型(statistical language model, SLM) 語言模型P產生長度n之詞序列(word sequence) W的機率(量化接受度) 參數量非常龐大 ( |V|i ) ,必須作簡化 N連語言模型 三連語言模型 統計式語言模型 三連語言模型的估測 最大相似度估測法(maximum likelihood estimation, MLE) 語言模型平滑化(smoothing) 資料稀疏性(data sparseness) 本論文採用Katz 模型平滑化技術 N連語言模型所能擷取的資訊被N的值所限定 語意資訊-觸發對 觸發對(trigger pair) 長距離詞與詞之間的語意相依資訊 歷史詞序列hi中包含與詞wi相同語意的詞,如wj,則稱wj觸發wi 估測觸發對 平均交互資訊(average mutual information, AMI) 自我觸發(self-trigger) 語意資訊-潛藏語意分析 詞與文件矩陣(term-document matrix) 奇異值分解(singular value decomposition, SVD) 詞向量與文件向量無法比較 將詞與文件投影到較低維的潛藏語意空間 加入新的文件(fold-in) 潛藏語意分析 應用於語言模型機率估測 更新歷史詞序列所形成的向量 餘弦估測(cosine measure) 與N連語言模型合併 主題資訊 主題資訊(topic information) 語意分類(semantic classification)的應用 線性混合模型(linear mixture model) 主題分類模型(topic classification model) 主題混合模型 主題混合模型(topic mixture model, TMM) 每一個文章皆為一個混合模型 主題一連語言模型(topic unigram) 主題在各文章中的權重 主題混合模型 應用於語言模型機率估測 與N連語言模型結合 模型插補法 機率調整(probability scaling) 語言模型調適的架構 訓練語料 背景語言模型 N連語言模型 調適語料 與測試語料同時期或領域相同 大小較小 不限定為N連語言模型 最大事後機率法 最大事後機率法(maximum a posterior, MAP) 詞頻數混合法 模型插補法 動態快取模型法 模型插補法延伸 最大熵值法 每一個資訊來源都會引發一群限制(a set of constraint),限制的交集區域代表滿足所有限制的機率分佈,其中擁有最大熵值的分佈為最大熵值法的解。 IIS演算法 實驗 Set 1:廣播新聞 訓練語料:中央社20
文档评论(0)