歧义切分与专有名词自动识别技术D95922033苏建豪.PPT

下载文档 降价啦

2
0
约2.87千字
约 22页
2018-03-10 发布于天津
举报
版权申诉
保障服务

歧义切分与专有名词自动识别技术D95922033苏建豪.PPT

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

歧义切分与专有名词自动识别技术D95922033苏建豪

2007/05/10 Department of Computer Science and Information Engineering, National Taiwan University, Taipei, 10617 Taiwan 歧義切分與專有名詞自動識別技術概要前言歧義字段自動切分技術中文姓名自動識別技術中國地名自動識別技術前言中文信息處理的很多項目中都涉及切詞的問題漢外機器翻譯、中文文獻自動索引、自動分類、中文文獻庫全文索引等 1995年和1998年中文文本切詞評測結果準確率和召回率都很低透過語料庫方法和人工智能之後準確率和召回率都提高不少歧義字段自動切分技術歧義字段的定義和採集方法交集型歧義字段自動切分技術多義型歧義字段自動切分技術歧義字段的定義和採集方法交集型歧義字段在AJB中，AJ W，JB W “部分居民生活水平” 多義型歧義字段在AB中， AB W，A W，B W “一家人世世代代沒有人身自由” “家”、 “人”、 “家人”、 “人世”、 “世”、 “世世代代”、 “代” 採集方法從大規模中文語料中查找歧義字段熟語料、生語料交集型歧義字段自動切分技術交集型歧義字段的採集雙向掃描法、逐詞掃描法交集型歧義字段統計分析多義型歧義字段自動切分技術多義型歧義字段的識別方法全匹配法、雙向掃描法、窮舉法多義型歧義字段統計分析山西大學的分詞詞庫共有詞條77856個，其中多字詞69619個，單字詞7415個，語素822個。若考慮由單字詞所引起的多義型歧義現象，共有多義型詞條68448個，佔全部多字詞的98.3%。多義型歧義字段切分策略基於窮舉法的切分、基於統計訊息的切分、基於詞形／詞性規則的切分中文姓名自動識別技術引言中文姓名識別數據資源中文姓名識別規則庫中文姓名識別方法和步驟試驗結果引言中文姓名識別的難點姓名隨著時間的改變不斷增加中文姓名沒有像西方語言中的型態特徵避免重名，代之而來的大量異體字、生僻字、自造字真實語料中姓名結構複雜，如姓名成詞、姓與名首字成詞、名字自身成詞目前存在問題對姓名成詞和姓氏成詞的情況識別效果不好中文姓名識別數據資源中文姓名識別數據資源姓氏用字和名字用字姓氏雖多，使用集中在少數大姓上：王、陳、李、趙、劉人名用字雖多，但也相對集中中文姓名統計分析中文姓名識別規則庫規則類型姓名用字規則稱謂擴展規則姓名邊界確定規則衝突發現規則衝突處理規則實例規則中文姓名識別方法和步驟在姓名識別統計表的基礎上確定了性名識別閥值，提出了姓名識別評價函數姓氏使用度不同的漢字採用不同的姓名閥值姓氏使用度大的漢字召回率較高姓氏使用度小的漢字準確率較高尋找潛在姓名、生成簡稱潛在姓名、對潛在姓名進行初篩選、計算概略估值，對潛在姓名再篩選、確定姓名邊界、尋找衝突，否定潛在姓名、計算可信度值、擴展某些單名、應用實例庫規則，再確定潛在姓名、輸出結果試驗結果有丁玲的女兒蔣祖慧和武兆寧等人試驗結果從《人民日報》中抽取了72621個漢字的新聞語料，其中包括419個中文姓名，對系統進行了開放測試。系統辨識出“中文姓名”457個，其中正確399個。中文姓名識別的召回率：95.23%；準確率：87.31%。中國地名自動識別技術引言中國地名資源知識庫中國地名自動識別統計模型中國地名識別規則集中國地名自動識別系統引言中文地名自動識別的難點缺少明確、規範的地名定義真實語料中地名情況複雜地名的內部構成情況複雜地名的命名比較複雜目前存在問題只有一篇文獻，召回率87.62%，準確率74.8% 收錄地名的數量、範圍和權威性都不夠；用字在真實文本中構成地名的能力，沒有進行明確的計算和量化；沒有充分利用上下文中國地名資源知識庫中國地名庫中國地名庫的建立中國地名用字的統計訊息中國地名用詞的統計訊息地名用字在真實文本中的覆蓋情況中國地名自動識別統計模型地名用字的使用度為了反應一個字在真實文本中構成地名的可能性概率估值公式閥值的選取可以覆蓋CPB中99%的地名利用概率估值公式進行地名初識別中國地名識別規則集規則的獲取人工歸納規則初篩選類型選擇規則確定規則否定規則邊界修正規則利用變換的方法獲取規則規則集的管理規則可信度閥值的設定規則間約束關係的檢查規則的排序及優先權管理中國地名自動識別系統系統設計思想常見的地名匹配地名初識別上下文信息的收集利用規則進一步確定地名實驗結果與分析採用五萬漢字的《人民日報》語料，地名有514個，系統準確率為90.92%，召回率91% 報告完畢，謝謝 * * 蘇