- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
地名的自动辨识
中國地名、組織機構名稱和英譯名的自動辨識 周彥呈 Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識 Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識 地名的自動辨識 資源 地名辨識系統 地名的自動辨識 資源 中國地名庫 (收錄中華人民共和國地名錄) 中國地名用字庫 中國地名用詞庫 (Ex:水庫、名勝、苗族) 二元同現庫 (Ex:中國大陸) 並列聯繫詞庫 (、 和 與 並引入可信度) 地名指示詞詞庫(在、到、位於、城市、地區) word position basic weight 中國地名用字庫 收錄全部中國地名庫的用字 因為用字不集中 中國地名庫地名用字在真實文本中的覆蓋情況:可達95% 中國地名用字庫 紀錄 該字在地名中出現在中國地名庫的首中尾的次數 該字在地名中出現在真實語料的地名的首中尾的次數(與中國地名庫有出入所以須紀錄) 該字在真實語料中出現的次數 該字做地名首中尾字的使用程度 可以訓練 例:也、沂 (地名出現在首字此數相同,實際使用”也”高出很多) 地名的自動辨識 資源 地名辨識系統 地名的自動辨識 地名辨識系統 地名識別規則庫 中國地名辨識系統 地名識別規則 地名識別規則 中國地名辨識系統結構圖 地名辨識範例 1.分詞 地名辨識範例 2.Ps(w) 、Pm(w) 、Pe(w) Threshold T1=0.005 T2=0.005 T1=0.007 地名辨識範例 3.選出”菜戶營橋” 4.收集上下文:位於、下 5.推理:用規則確認,左右界確定 ?菜戶營橋 中國地名評測語料封閉測試 Return rate=93.8% 正確率=86.7% 地名的自動辨識的困難 數量大、無規律 出現情況複雜 到北京、到十二月、到湖鄉 中國民間藝術之鄉 港、澳同胞 湖北京山縣 有眼不識泰山 老北京最喜歡吃的 地名長短:滬vs雙江拉估族佤族布朗族傣族自治縣 Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識 組織機構名稱的自動辨識 組織機構名稱的語法性質和語意特性 組織機構名稱自動辨識演算法 組織機構名稱分析系統 組織機構名稱分析系統的改進 語法性質和語意特性 名詞(大部分)|形容詞|序數詞|動詞 + 機構中心語(名詞) 分類 地名:北京大學 人名:中山大學 學科專業、部門系統:電子工業部、教育委員會 研究、生產、經營對象:軟件研究所 上述綜合:白求恩醫科大學 大機構、團體、組織、職業:中國人民解放軍外語學院、中國發明家學會 專造的機構名:復旦大學、四通公司 創辦工作方式:某某集團、某某股份公司 語法性質和語意特性 {地名機構團體} | 序數詞 | {人名 | 專造名} | {產品、對象|功能/方式/等級|學科/行業} + 機構稱呼詞 越是反映事物固定內在本質的定語越靠近中心詞 各機構可進一步規範:高校名稱的構造規則--地名機構團體序數詞人名專造名為學方式學科/行業+”大學/學院/院.等” 組織機構名稱自動辨識演算法 組織機構名稱分析系統 組織機構名稱分析系統的改進 附加規則1:首詞為地名且後接有地名人名機構團體或專造名則該地名不包括在高效名稱中。Ex:上海復旦大學、美國華盛頓大學 附加規則2:表示地區方位的方位詞(東南西北中)可視為地名或地名的組成部份。Ex:中央音樂學院、中南工業大學 附加規則3:高校修飾語不能只含有國家或更大區域的名稱。Ex:中國高中X 組織機構名稱分析系統的改進 前後界定位均正確者 Return rate=93.8% 正確率=86.7% 後界定位正確者 Return rate=99.1% 正確率=99.4% Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識 英語譯名的自動辨識 英語譯名識別的當用資源 英語譯名的自動識別算法 英語譯名識別的當用資源 英語姓名譯名用字表(英語姓名譯名手冊) CC-Only-Head Ex:包牛 CC-Not-Head Ex:子琴 CC-Only-Tail Ex:生雄 CC-Not-Tail Ex:卓強 聯想表 Ex:其--奇 汗--漢 英語姓名譯名用字表 英語譯名的自動識別算法 英語譯名的自動識別算法 範例:他對諾貝爾醫學與生理獎獲得者休伯和書塞爾教授的研究成果作出修正 靠用字表得出:諾貝爾、生理、得者休伯、書塞爾 生-CC-Not-Head 得,者-CC-Not-Head 英語譯名的自動識別算法 範例:任命雷鳥本.利斯塔為海軍新聞發布官 靠用字表得出:雷鳥本.利斯塔為 為-CC-Not-Tail 英語譯名的自動識別實測 十萬
文档评论(0)