风险最小化准则在中文大词汇.pptVIP

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
風險最小化準則在中文大詞彙 連續語音辨識之研究 郭人瑋 劉士弘 陳柏琳教授 國立台灣師範大學資訊工程研究所 序論 探討風險最小化準則在中文大詞彙連續語音辨識之初步研究,內容包括三部分: 1.聲學模型訓練 -最小化音素錯誤鑑別式訓練方法(MPE) 2.非監督式聲學模型調適 -最小化音素錯誤線性迴歸調適法(MPELR) 3.搜尋演算法 -詞錯誤最小化搜尋方法(WEM) 貝式風險 若 為一語句的聲學特徵向量序列,將 歸類至文句 時,可以用函數 代表此歸類行為的風險。 其中 為聲學特徵向量序列 所有可能對應的文句所成之集合; 表示給定 時,文句 的事後機率。 為一減損函數,用以表示文句 與 之間差異所造成的損失。 為將 歸類至 時的期望損失,又稱為條件風險。 貝式風險 在語音辨識解碼上,可以最小化此條件風險來尋找最佳的文句 : 而因此產生的風險即為貝氏風險 : 目前有許多語音辨識器根據貝氏決策定理,即最小化此條件風險前提下來設計其搜尋演算法,如傳統的最大化事後機率(MAP)解碼方法、ROVER、詞錯誤最小化(或稱為最小化貝式風險) 。 全面風險 就模型訓練而言,則需要最小化全面風險 : 其中 為 對應之正確轉譯文句, 為 的事前機率 全面風險是在語句空間上作積分,為所有訓練語句的期望條件風險。由於訓練語料有限,故全面風險可簡化: 全面風險 若事後機率分佈 由聲學模型 及語言模型 所決定,記作 ,則全面風險可改寫成 : 若再假設 對所有聲學特徵向量序列 均有一致(Uniform)的機率,且此項與模型參數的訓練無關,則可將此項省略: 在估測模型時,希望估測之模型 能將全面風險降至最低: 全面風險法則 在估測模型時,我們希望估測之模型 能將全面風險降至最低,因此可進一步表示成: 其中 為文句 對應的聲學模型產生聲學特徵向量序列 的機率分佈, 為文句對應的語言模型機率分佈。 最小化音素錯誤訓練 最小化音素錯誤與全面風險法則估測有下列的差異: 1.使用詞圖(Word Graph)來取代N-最佳序列作為所有可能文句之近似。 2.引入模型參數事前機率,來增加估測值的強健性。 3.對於延伸波氏重估演算法中的控制參數,提出更佳的設定方式。 4.強調音素層次的正確率而非詞正確率。 詞圖 最小化音素錯誤訓練 最小化音素錯誤訓練法則聲學模型訓練的目標函數 為: 以第 句訓練語句辨識過後所產生的詞圖並加入正確轉譯文句 的詞分枝所形成之可能文句集合 ,當成聲學特徵向量序列 所對應之所有可能的文句 。 為文句 相對於正確轉譯文句 的正確率 。 音素正確率的計算 正確轉譯文句 為「比-他-好-太多」,而以詞圖中某一詞段「好在」為例,要計算詞圖上某一音素的正確率有三個步驟(在此以辨識文句v中的音素au為例): Step 1. 在正確轉譯文句中找出與au有時間重疊之音素h_a、au與 t_a,分別的重疊長度為2、8、2個音框(Frame)。 Step 2. 計算辨識文句中au對此三音素所重疊比例,如對h_a重疊2 個音框,而h_a在正確轉譯文句中實際長度為10個音框, 所以所重疊的比例為0.2。同理可求得對轉譯文句中au的重 疊比例為1.0、對t_a的重疊比例為0.33。 Step 3. 再來先計算辨識文句中au對此三音素的正確率,若音素相 同,則計算方式為-1+2*重疊比例,否則為-1+重疊比例。 對h_a來說,因為h_aau,所以對h_a之正確率為-0.8,同理 可得對au的正確率為1.0、對t_a的正確率為-0.67

您可能关注的文档

文档评论(0)

经典资料吧 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档