网站大量收购闲置独家精品文档,联系QQ:2885784924

歧义切分与专有名词自动识别技术.pptVIP

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

歧義切分與專有名詞

自動識別技術蘇建豪2007/05/101

概要前言歧義字段自動切分技術中文姓名自動識別技術中國地名自動識別技術2007/05/102

前言中文信息處理的很多項目中都涉及切詞的問題漢外機器翻譯、中文文獻自動索引、自動分類、中文文獻庫全文索引等1995年和1998年中文文本切詞評測結果準確率和召回率都很低透過語料庫方法和人工智能之後準確率和召回率都提高不少2007/05/103

1995集型歧義字段切分正確率78%95%多義型歧義字段切分正確率59%中國人名識別正確率91%87.31%中國人名識別召回率68%95.23%中國地名識別正確率69%86.7%中國地名識別召回率60%93.8%2007/05/104

歧義字段自動切分技術歧義字段的定義和採集方法交集型歧義字段自動切分技術多義型歧義字段自動切分技術2007/05/105

歧義字段的定義和採集方法交集型歧義字段在AJB中,AJW,JBW“局部居民生活水平”多義型歧義字段在AB中,ABW,AW,BW“一家人世世代代沒有人身自由”“家”、“人”、“家人”、“人世”、“世”、“世世代代”、“代”採集方法從大規模中文語料中查找歧義字段熟語料、生語料2007/05/106

交集型歧義字段自動切分技術交集型歧義字段的採集雙向掃描法、逐詞掃描法交集型歧義字段統計分析鏈計歧義字段次數4740228790121760829192178248比例(%)60.5837.021.560.780.040.020.000.00100交集型歧義字段切分策略之一:統計方法字段中各種切分情況在實際生活中的使用頻率2007/05/107

多義型歧義字段自動切分技術多義型歧義字段的識別方法全匹配法、雙向掃描法、窮舉法多義型歧義字段統計分析山西大學的分詞詞庫共有詞條77856個,其中多字詞69619個,單字詞7415個,語素822個。假设考慮由單字詞所引起的多義型歧義現象,共有多義型詞條68448個,佔全部多字詞的98.3%。多義型歧義字段切分策略基於窮舉法的切分、基於統計訊息的切分、基於詞形/詞性規則的切分2007/05/108

中文姓名自動識別技術引言中文姓名識別數據資源中文姓名識別規則庫中文姓名識別方法和步驟試驗結果2007/05/109

引言中文姓名識別的難點姓名隨著時間的改變不斷增加中文姓名沒有像西方語言中的型態特徵防止重名,代之而來的大量異體字、生僻字、自造字真實語料中姓名結構複雜,如姓名成詞、姓與名首字成詞、名字自身成詞目前存在問題對姓名成詞和姓氏成詞的情況識別效果不好2007/05/1010

中文姓名識別數據資源中文姓名識別數據資源姓氏用字和名字用字姓氏雖多,使用集中在少數大姓上:王、陳、李、趙、劉人名用字雖多,但也相對集中中文姓名統計分析姓名庫統計結果真實語料統計結果姓名庫統計結果真實語料統計結果頻度序列累計頻率頻度序列累計頻率前15個高頻姓氏50.8%全部包括前71個名字用字50.17%全部包括前65個高頻姓氏80.4%全部包括前410個名字用字90.0%包括408個前114個高頻姓氏90.0%全部包括前1141個名字用字99.0%共計1411個2007/05/1011

中文姓名識別規則庫規則類型姓名用字規則稱謂擴展規則姓名邊界確定規則衝突發現規則衝突處理規則實例規則2007/05/1012

中文姓名識別方法和步驟在姓名識別統計表的基礎上確定了性名識別閥值,提出了姓名識別評價函數姓氏使用度不同的漢字採用不同的姓名閥值姓氏使用度大的漢字召回率較高姓氏使用度小的漢字準確率較高尋找潛在姓名、生成簡稱潛在姓名、對潛在姓名進行初篩選、計算概略估值,對潛在姓名再篩選、確定姓名邊界、尋找衝突,否认潛在姓名、計算可信度值、擴展某些單名、應用實例庫規則,再確定潛在姓名、輸出結果2007/05/1013

試驗結果有丁玲的女兒蔣祖慧和武兆寧等人有丁玲的女兒蔣姓首尾00.49500.263077祖慧和武兆寧等人0.0020.0590.01100.2150.2430.00010.0010.0360.16900.0060.020.0080.610.0702007/05/1014

試驗結果從《人民日報》中抽取了72621個漢字的新聞語料,其中包括419個中文姓名,對系統進行了開放測試。系統辨識出“中文姓名”457個,其中正確399個。中文姓名識別的召回率:95.23%;準確率:87.31%。2007/05/1015

中國地名自動識別技術引言中國地名資源知識庫中國地名自動識別統計模型中國地名識別規則集中國地名自動識別系統2007/05/1016

引言中文地名

文档评论(0)

199****4744 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7002121022000045

1亿VIP精品文档

相关文档