概率词性1机率词词性的标注.pptVIP

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概率词性1机率词词性的标注

計算語言學概論 詞法分析 吳憲國 2007/06/21 Introduction 詞法分析簡介 分詞方式 最大匹配法 最大概率法 詞性的標注 HMM (Hidden Markov Model)演算法 Viterbi演算法 詞義的排歧 Bayesian Discrimination 詞法分析研究的意義與目的 機器翻譯︰簡繁轉換 后面 ? 後面 , 皇后 ? 皇後 松绑 ? 鬆綁 , 松树 ? 鬆樹 訊息檢索︰搜尋引擎 開發 ? 土地開發 (開發票) 便衣 ? 便衣警察 (簡便衣物) 文本處理︰拼寫校對 繁體子 ? 繁體字 于涉 ? 干涉 語音處理︰電腦發音、重音復原 倒垃圾??跌倒 詞法分析研究的意義與目的 詞法分析的過程 1.分詞 : 將句子中的單詞切割出來 2.詞性標注 : 決定每個詞的詞性 3.詞義排岐 : 決定每個詞的意義 漢語的分詞方式 從句子轉換到詞串,會因為切割方式的不同,而有不同的意義 學生會長是誰 學生會 / 長 / 是 / 誰 學生 / 會長 / 是 / 誰 學生 / 會 / 長 / 是 / 誰 分詞的基本方法 最大匹配法(Maximum Match based approach) 機率分詞法(Probability approach to Word Segmentation) 最大匹配法 詞典中較長的詞,會被優先取出 缺點 最大詞長設定 MaxLen 太小?無法切割出長詞 太長?效率太差 正向與反向的分詞差異 句子“有意見分歧” 正向匹配?有意 / 見 / 分歧 反向匹配?有 / 意見 / 分歧 機率分詞法 基本概念 一個待切割的字串可能包含多種分詞結果 求得其中機率最大的切割方式作為該字串的分詞結果 機率分詞法 字串S =“有意見分歧“ 詞串W1 =有 / 意見 / 分歧 詞串W2 =有意 / 見 / 分歧 機率分詞法 詞串W1 = 有 / 意見 / 分歧 P(W1) = P(有)*P(意見)*P(分歧) 詞串W2 = 有意 / 見 / 分歧 P(W2) = P(有意)*P(見)*P(分歧) P(W1) P(W2) 有意見分歧 ? 有 / 意見 / 分歧 詞性的標注 兼類現象 Time flies like an arrow. n-v v-n p-v det n 把 這 篇 報導 編輯 一 下 q-p-v-n r q v-n v-n m-c f-q-v 詞性的標注 – 兼類現象 詞性的標注 – 兼類現象 詞性的標注 – 兼類現象 詞性的標注 – 尋找最佳路徑 把 | 這 | 篇 | 報導 | 編輯 | 一 | 下 q-p-v-n | r | q | v-n | v-n | m-c | f-q-v 4 X 1 X 1 X 2 X 2 X 2 X 3 = 96 種可能詞性的組合 Hidden Markov Model 路徑集合T = (t1,t2,t3,………,t96) 每一步的轉移機率 = 詞性轉移機率 * 單詞出現機率 P(t1|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(f|m) P(下|f) P(t2|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(q|m) P(下|q) …… P(t96|W) = P(n|$) P(把|n) x P(r|q) P(这|r) x …… x P(v|c) P(下|v) HMM複雜度 假定有N個詞性標記,給定的詞串中有M個單詞,考慮最壞的情況下,每個詞都有N個可能的詞性出現,則可能的路徑有NM條,隨著M的增加,需要計算的可能路徑數目以指數模式增長,即演算法時間複雜性成指數成長。 Viterbi Viterbi演算法是dynamic programing的一種 假設有N種詞性,在長度為M的詞串中 遞迴計算並儲存每個單詞中每種詞性的最佳到達路徑與機率值 當到達最後一個單詞時,計算最佳的詞類 由最後一個單詞的最佳詞類所儲存的路徑,依序回推前一個的最佳詞性,如此便能找到最佳解 Viterbi複雜度 考慮最壞的情況,掃描到每一個單詞時,從前一個單詞的N個詞性標記到當前一個單詞的N個詞性標記,有N2條路經,掃描長度為M的詞串後,計算次數為N2×M次。 對於確定的詞性標注系統而言,N是固定的,因此,隨著M長度的增加,計算時間以線性模式增長。也就是說,Viterbi演算法的時間複雜度是線性的。 詞義的排歧(Word Sen

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档