概率词性1机率词词性的标注.pptVIP

下载本文档

1
0
约5.02千字
约 30页
2018-05-18 发布于天津
举报
版权申诉

概率词性1机率词词性的标注.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

概率词性1机率词词性的标注

計算語言學概論詞法分析吳憲國 2007/06/21 Introduction 詞法分析簡介分詞方式最大匹配法最大概率法詞性的標注 HMM (Hidden Markov Model)演算法 Viterbi演算法詞義的排歧 Bayesian Discrimination 詞法分析研究的意義與目的機器翻譯︰簡繁轉換后面 ? 後面，皇后 ? 皇後松绑 ? 鬆綁，松树 ? 鬆樹訊息檢索︰搜尋引擎開發 ? 土地開發 (開發票) 便衣 ? 便衣警察 (簡便衣物) 文本處理︰拼寫校對繁體子 ? 繁體字于涉 ? 干涉語音處理︰電腦發音、重音復原倒垃圾??跌倒詞法分析研究的意義與目的詞法分析的過程 1.分詞 : 將句子中的單詞切割出來 2.詞性標注 : 決定每個詞的詞性 3.詞義排岐 : 決定每個詞的意義漢語的分詞方式從句子轉換到詞串，會因為切割方式的不同，而有不同的意義學生會長是誰學生會 / 長 / 是 / 誰學生 / 會長 / 是 / 誰學生 / 會 / 長 / 是 / 誰分詞的基本方法最大匹配法(Maximum Match based approach) 機率分詞法(Probability approach to Word Segmentation) 最大匹配法詞典中較長的詞，會被優先取出缺點最大詞長設定 MaxLen 太小?無法切割出長詞太長?效率太差正向與反向的分詞差異句子“有意見分歧” 正向匹配?有意 / 見 / 分歧反向匹配?有 / 意見 / 分歧機率分詞法基本概念一個待切割的字串可能包含多種分詞結果求得其中機率最大的切割方式作為該字串的分詞結果機率分詞法字串S =“有意見分歧“ 詞串W1 =有 / 意見 / 分歧詞串W2 =有意 / 見 / 分歧機率分詞法詞串W1 = 有 / 意見 / 分歧 P(W1) = P(有)*P(意見)*P(分歧) 詞串W2 = 有意 / 見 / 分歧 P(W2) = P(有意)*P(見)*P(分歧) P(W1) P(W2) 有意見分歧 ? 有 / 意見 / 分歧詞性的標注兼類現象 Time flies like an arrow. n-v v-n p-v det n 把這篇報導編輯一下 q-p-v-n r q v-n v-n m-c f-q-v 詞性的標注 – 兼類現象詞性的標注 – 兼類現象詞性的標注 – 兼類現象詞性的標注 – 尋找最佳路徑把 | 這 | 篇 | 報導 | 編輯 | 一 | 下 q-p-v-n | r | q | v-n | v-n | m-c | f-q-v 4 X 1 X 1 X 2 X 2 X 2 X 3 = 96 種可能詞性的組合 Hidden Markov Model 路徑集合T = (t1,t2,t3,………,t96) 每一步的轉移機率 = 詞性轉移機率 * 單詞出現機率 P(t1|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(f|m) P(下|f) P(t2|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(q|m) P(下|q) …… P(t96|W) = P(n|$) P(把|n) x P(r|q) P(这|r) x …… x P(v|c) P(下|v) HMM複雜度假定有N個詞性標記，給定的詞串中有M個單詞，考慮最壞的情況下，每個詞都有N個可能的詞性出現，則可能的路徑有NM條，隨著M的增加，需要計算的可能路徑數目以指數模式增長，即演算法時間複雜性成指數成長。 Viterbi Viterbi演算法是dynamic programing的一種假設有N種詞性，在長度為M的詞串中遞迴計算並儲存每個單詞中每種詞性的最佳到達路徑與機率值當到達最後一個單詞時，計算最佳的詞類由最後一個單詞的最佳詞類所儲存的路徑，依序回推前一個的最佳詞性，如此便能找到最佳解 Viterbi複雜度考慮最壞的情況，掃描到每一個單詞時，從前一個單詞的N個詞性標記到當前一個單詞的N個詞性標記，有N2條路經，掃描長度為M的詞串後，計算次數為N2×M次。對於確定的詞性標注系統而言，N是固定的，因此，隨著M長度的增加，計算時間以線性模式增長。也就是說，Viterbi演算法的時間複雜度是線性的。詞義的排歧(Word Sen