歧义切分与专有名词自动识别技术D95922033苏建豪.PPT

歧义切分与专有名词自动识别技术D95922033苏建豪.PPT

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
歧义切分与专有名词自动识别技术D95922033苏建豪

2007/05/10 Department of Computer Science and Information Engineering, National Taiwan University, Taipei, 10617 Taiwan 歧義切分與專有名詞 自動識別技術 概要 前言 歧義字段自動切分技術 中文姓名自動識別技術 中國地名自動識別技術 前言 中文信息處理的很多項目中都涉及切詞的問題 漢外機器翻譯、中文文獻自動索引、自動分類、中文文獻庫全文索引等 1995年和1998年中文文本切詞評測結果 準確率和召回率都很低 透過語料庫方法和人工智能之後 準確率和召回率都提高不少 歧義字段自動切分技術 歧義字段的定義和採集方法 交集型歧義字段自動切分技術 多義型歧義字段自動切分技術 歧義字段的定義和採集方法 交集型歧義字段 在AJB中,AJ W,JB W “部分居民生活水平” 多義型歧義字段 在AB中, AB W,A W,B W “一家人世世代代沒有人身自由” “家”、 “人”、 “家人”、 “人世”、 “世”、 “世世代代”、 “代” 採集方法 從大規模中文語料中查找歧義字段 熟語料、生語料 交集型歧義字段自動切分技術 交集型歧義字段的採集 雙向掃描法、逐詞掃描法 交集型歧義字段統計分析 多義型歧義字段自動切分技術 多義型歧義字段的識別方法 全匹配法、 雙向掃描法、窮舉法 多義型歧義字段統計分析 山西大學的分詞詞庫共有詞條77856個,其中多字詞69619個,單字詞7415個,語素822個。若考慮由單字詞所引起的多義型歧義現象,共有多義型詞條68448個,佔全部多字詞的98.3%。 多義型歧義字段切分策略 基於窮舉法的切分、 基於統計訊息的切分、基於詞形/詞性規則的切分 中文姓名自動識別技術 引言 中文姓名識別數據資源 中文姓名識別規則庫 中文姓名識別方法和步驟 試驗結果 引言 中文姓名識別的難點 姓名隨著時間的改變不斷增加 中文姓名沒有像西方語言中的型態特徵 避免重名,代之而來的大量異體字、生僻字、自造字 真實語料中姓名結構複雜,如姓名成詞、姓與名首字成詞、名字自身成詞 目前存在問題 對姓名成詞和姓氏成詞的情況識別效果不好 中文姓名識別數據資源 中文姓名識別數據資源 姓氏用字和名字用字 姓氏雖多,使用集中在少數大姓上:王、 陳、李、趙 、劉 人名用字雖多,但也相對集中 中文姓名統計分析 中文姓名識別規則庫 規則類型 姓名用字規則 稱謂擴展規則 姓名邊界確定規則 衝突發現規則 衝突處理規則 實例規則 中文姓名識別方法和步驟 在姓名識別統計表的基礎上確定了性名識別閥值,提出了姓名識別評價函數 姓氏使用度不同的漢字採用不同的姓名閥值 姓氏使用度大的漢字召回率較高 姓氏使用度小的漢字準確率較高 尋找潛在姓名、生成簡稱潛在姓名、對潛在姓名進行初篩選、計算概略估值,對潛在姓名再篩選、確定姓名邊界、尋找衝突,否定潛在姓名、計算可信度值、擴展某些單名、應用實例庫規則,再確定潛在姓名、輸出結果 試驗結果 有丁玲的女兒蔣祖慧和武兆寧等人 試驗結果 從《人民日報》中抽取了72621個漢字的新聞語料,其中包括419個中文姓名,對系統進行了開放測試。系統辨識出“中文姓名”457個,其中正確399個。中文姓名識別的召回率:95.23%;準確率:87.31%。 中國地名自動識別技術 引言 中國地名資源知識庫 中國地名自動識別統計模型 中國地名識別規則集 中國地名自動識別系統 引言 中文地名自動識別的難點 缺少明確、規範的地名定義 真實語料中地名情況複雜 地名的內部構成情況複雜 地名的命名比較複雜 目前存在問題 只有一篇文獻,召回率87.62%,準確率74.8% 收錄地名的數量、範圍和權威性都不夠;用字在真實文本中構成地名的能力,沒有進行明確的計算和量化;沒有充分利用上下文 中國地名資源知識庫 中國地名庫 中國地名庫的建立 中國地名用字的統計訊息 中國地名用詞的統計訊息 地名用字在真實文本中的覆蓋情況 中國地名自動識別統計模型 地名用字的使用度 為了反應一個字在真實文本中構成地名的可能性 概率估值公式 閥值的選取 可以覆蓋CPB中99%的地名 利用概率估值公式進行地名初識別 中國地名識別規則集 規則的獲取 人工歸納規則 初篩選類型選擇規則 確定規則 否定規則 邊界修正規則 利用變換的方法獲取規則 規則集的管理 規則可信度閥值的設定 規則間約束關係的檢查 規則的排序及優先權管理 中國地名自動識別系統 系統設計思想 常見的地名匹配 地名初識別 上下文信息的收集 利用規則進一步確定地名 實驗結果與分析 採用五萬漢字的《人民日報》語料,地名有514個,系統準確率為90.92%,召回率91% 報告完畢,謝謝 * * 蘇

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档