- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概率词性1机率词词性的标注
計算語言學概論 詞法分析 吳憲國 2007/06/21 Introduction 詞法分析簡介 分詞方式 最大匹配法 最大概率法 詞性的標注 HMM (Hidden Markov Model)演算法 Viterbi演算法 詞義的排歧 Bayesian Discrimination 詞法分析研究的意義與目的 機器翻譯︰簡繁轉換 后面 ? 後面 , 皇后 ? 皇後 松绑 ? 鬆綁 , 松树 ? 鬆樹 訊息檢索︰搜尋引擎 開發 ? 土地開發 (開發票) 便衣 ? 便衣警察 (簡便衣物) 文本處理︰拼寫校對 繁體子 ? 繁體字 于涉 ? 干涉 語音處理︰電腦發音、重音復原 倒垃圾??跌倒 詞法分析研究的意義與目的 詞法分析的過程 1.分詞 : 將句子中的單詞切割出來 2.詞性標注 : 決定每個詞的詞性 3.詞義排岐 : 決定每個詞的意義 漢語的分詞方式 從句子轉換到詞串,會因為切割方式的不同,而有不同的意義 學生會長是誰 學生會 / 長 / 是 / 誰 學生 / 會長 / 是 / 誰 學生 / 會 / 長 / 是 / 誰 分詞的基本方法 最大匹配法(Maximum Match based approach) 機率分詞法(Probability approach to Word Segmentation) 最大匹配法 詞典中較長的詞,會被優先取出 缺點 最大詞長設定 MaxLen 太小?無法切割出長詞 太長?效率太差 正向與反向的分詞差異 句子“有意見分歧” 正向匹配?有意 / 見 / 分歧 反向匹配?有 / 意見 / 分歧 機率分詞法 基本概念 一個待切割的字串可能包含多種分詞結果 求得其中機率最大的切割方式作為該字串的分詞結果 機率分詞法 字串S =“有意見分歧“ 詞串W1 =有 / 意見 / 分歧 詞串W2 =有意 / 見 / 分歧 機率分詞法 詞串W1 = 有 / 意見 / 分歧 P(W1) = P(有)*P(意見)*P(分歧) 詞串W2 = 有意 / 見 / 分歧 P(W2) = P(有意)*P(見)*P(分歧) P(W1) P(W2) 有意見分歧 ? 有 / 意見 / 分歧 詞性的標注 兼類現象 Time flies like an arrow. n-v v-n p-v det n 把 這 篇 報導 編輯 一 下 q-p-v-n r q v-n v-n m-c f-q-v 詞性的標注 – 兼類現象 詞性的標注 – 兼類現象 詞性的標注 – 兼類現象 詞性的標注 – 尋找最佳路徑 把 | 這 | 篇 | 報導 | 編輯 | 一 | 下 q-p-v-n | r | q | v-n | v-n | m-c | f-q-v 4 X 1 X 1 X 2 X 2 X 2 X 3 = 96 種可能詞性的組合 Hidden Markov Model 路徑集合T = (t1,t2,t3,………,t96) 每一步的轉移機率 = 詞性轉移機率 * 單詞出現機率 P(t1|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(f|m) P(下|f) P(t2|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(q|m) P(下|q) …… P(t96|W) = P(n|$) P(把|n) x P(r|q) P(这|r) x …… x P(v|c) P(下|v) HMM複雜度 假定有N個詞性標記,給定的詞串中有M個單詞,考慮最壞的情況下,每個詞都有N個可能的詞性出現,則可能的路徑有NM條,隨著M的增加,需要計算的可能路徑數目以指數模式增長,即演算法時間複雜性成指數成長。 Viterbi Viterbi演算法是dynamic programing的一種 假設有N種詞性,在長度為M的詞串中 遞迴計算並儲存每個單詞中每種詞性的最佳到達路徑與機率值 當到達最後一個單詞時,計算最佳的詞類 由最後一個單詞的最佳詞類所儲存的路徑,依序回推前一個的最佳詞性,如此便能找到最佳解 Viterbi複雜度 考慮最壞的情況,掃描到每一個單詞時,從前一個單詞的N個詞性標記到當前一個單詞的N個詞性標記,有N2條路經,掃描長度為M的詞串後,計算次數為N2×M次。 對於確定的詞性標注系統而言,N是固定的,因此,隨著M長度的增加,計算時間以線性模式增長。也就是說,Viterbi演算法的時間複雜度是線性的。 詞義的排歧(Word Sen
您可能关注的文档
- 访孔孟之乡儒学润杏坛览齐鲁圣地木铎传金声-北京师范大学图书馆.pdf
- 访谈林怡君陈嬿如陈明君江建霆.ppt
- 非车险理赔流程-安心财产保险.pdf
- 放入到43℃恒温培养箱中发酵培养4~6h.ppt
- 飞机场工程-西南交通大学课程与资源中心.doc
- 废弃物是放错位置的资源为什么要处理污染物.ppt
- 分类迈步跳动作双脚起跳动作单脚起跳动作后踢腿跑动作-课程中心0.ppt
- 风灾后的重生_抚平受创儿童的心.pdf
- 缝制工艺操作过程10缉明线.ppt
- 服务机器人待掘的金矿.pdf
- 低碳技术对矿产资源供应链安全的支撑作用.docx
- 汉服服饰电商用户画像研究:2025年流量获取路径解析.docx
- 汉服服饰电商流量获取与用户购买力分析.docx
- 汉服服饰电商用户界面优化方案建议.docx
- 国潮浪潮下2025年传统服饰品牌文化营销策略研究报告.docx
- 汉服服饰电商用户增长策略报告:2025年流量运营与用户生命周期管理.docx
- 网络文学海外受众2025分析:跨文化传播策略与内容创新报告.docx
- 汉服服饰电商用户获取报告:2025年流量运营与用户满意度提升.docx
- 汉服服饰电商用户增长策略报告:2025年流量运营与优化.docx
- 食品制造业2025年节能减排技术改造项目环境影响评价与风险控制.docx
最近下载
- 转正合同协议.docx VIP
- 糖尿病优秀ppt课件.pptx VIP
- 《区域地理-东南亚(第课时)》-公开课件(设计).ppt VIP
- 2025年农村环保问题解析:十种废弃物资源化利用创新模式研究.docx
- 药食同源-公开课件.ppt VIP
- 回收废弃农作物秸秆项目备案申请可行性研究报告.docx
- 消食类药食同源中药的合理应用教材(PPT 74页).ppt VIP
- 犀牛角及其制品鉴定识别方法的研究.doc VIP
- 药食同源食物介绍PPT课件.pptx VIP
- Unit 1 Helping at home Part A (3) Let's spell 课件2025-2026学年度人教PEP版英语四年级上册.pptx VIP
文档评论(0)