HMM在短语别上之应用.pptVIP

下载本文档

4
0
约2.53千字
约 24页
2017-06-25 发布于上海
举报
版权申诉

HMM在短语别上之应用.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HMM在短语别上之应用ppt课件

HMM 在短語識別上之應用真理大學資訊管理學系指導老師：顏國郎報告人：羅中謙 Outline Problems Rationale Purpose Literatures Review Materials Methods Experiments Results Discussion Problems Rationales 資訊爆炸的時代網路的搜尋得到資訊搜尋資料過多面臨資料量與耗費時間比率的問題如何在許多文章中尋找符合範圍的文章 Purpose 利用資訊萃取及其相關技術，減少判斷的時間及錯誤率，以達到最好的時間效應 Literatures Review(1/5) 詞頻統計：俞士汶段慧明朱學鋒(2001)在基於現代漢語語法資訊詞典的標注語料庫近年來短語辨識是以語料庫的標注作為判斷基礎 Literatures Review(2/5) 短語邊界： Church(1988)進一步把HMM 用於識別英語中簡單的非遞迴的名詞短語標注詞性的語料中人工或半自動標注NP 邊界，以此為訓練資料，而統計出任意一對詞類標記之間出現以上5 種狀態的概率。統計得到的概率就成為短語邊界標注根據。 Literatures Review(3/5) 互資訊：孫宏林俞士汶(2000)淺層句法分析方法概述，《當代語言學》中提到詞類序列看成隨機事件，這樣就可以計算一對詞類標記之的互資訊互資訊值越高，X 和Y 組成短語的可能性越大，互資訊值越低，X 和Y 之間存在短語邊界的可能性越大 Literatures Review(4/5) 隱藏式馬可夫模型：林千翔、張嘉惠(2004)在基於特製隱藏式馬可夫模型之中文斷詞研究中提到隱藏式馬可夫模型是一種雙重隨機過程 1.已知模型參數，計算某一特定輸出序列的機率，使用Forward Algorithm 解決 2.已知模型參數，尋找最可能可以產生某一特定輸出序列的隱含狀態的序，並使用Viterbi Algorithm 解決 Literatures Review(5/5) 中文斷詞與名詞辨識：林一中、洪鵬翔(2002)Probabilistic named entity verification 在中文裡每個最小的單位是「字」，因此在中文文章中只有字的界線而無詞的界線文章內的人名、時間、地名…等標示出來，將會有效提升標示準確度 Materials Methods 一、資訊擷取把文件裡包含的資訊進行結構化處理，變成像表格一樣有組織的形式二、分類運用大量的規則來捕捉和分類名稱的子集，特殊的符號或特徵三、 HMM(隱藏式馬可夫模型) HMM 是一個雙重隨機過程，兩個組成部分︰馬爾可夫鏈︰表示狀態的轉移，用轉移機率描述一般隨機過程︰狀態與觀察序列間的關係，用輸出機率描述 Experiments (一) 實驗設計 (二) 短語規則 (三) 語料庫標注 (四) HMM 計算機率 (五) HMM 計算結果 (六) KMP 字串比對技術 (一) 實驗設計先標注小型語料庫，再利用hmm 計算其機率當作模組當標注大型語料庫而面對不同的機率出現，只要修改其模組即可方法及步驟流程圖方法：步驟： (二) 短語規則將片語分為八大類如下:A:非謂形容詞、C:連接詞、D:副詞、N:名詞、I:感嘆詞、T:語助詞、P:介詞、V:動詞。訂定短語的規則名詞短語: 名詞加名詞，標注為N+N 形容詞短語:副詞加名詞，標注為D＋A 形容詞加形容詞，其標注為A＋A 介係詞加上名詞/代名詞，其標注為P +N。 (三) 語料庫標注(1/2) 利用CKIP(中文斷詞系統)斷詞將輸入的句子分成詞串利用之前所訂定的短語規則來做人工標注標注為(O)是不屬於規則裡面的詞 (三) 語料庫標注(2/2) (四) HMM 計算機率統計詞出現的機率，經過計算後，可得到詞性的HMM 初始機率、詞性與詞性間前後的關係機率，也可稱為轉移矩陣A 條件機率公式： Pij( m ,m+n)=P{Xm+n = aj|Xm = ai} 在時刻m 處於狀態ai 條件下，在時刻m+n 轉移到狀態aj 的轉移機率每個詞與其詞性在文章中所出現的機率B。再以A、B、這三項數據套入Viterbi 演算法中來計算出每個詞後面所接每個詞的機率 (五) HMM 計算結果(1/4) (五) HMM 計算結果(2/4) B 矩陣機率值 (五) HMM 計算結果(3/4) 初始機率 (五) HMM 計算結果(4/4) (六) KMP 字串比對技術首先給定一串文字T 含n 各字元及一個樣式P(pattern)含m 各字元，再來找出所有P 在T 中出現的位置建立next(j)表格利用前面比對之資訊來計算下一個比對位置從哪各