《汉语文本短语结构的人工标注》语料库的加工与应用.pptVIP

《汉语文本短语结构的人工标注》语料库的加工与应用.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《汉语文本短语结构的人工标注》语料库的加工与应用

收集一些其他人做過的標注及研究 比較粗的因為有辭典做支撐 * 用現有的成果對與料座標注後 在考察實際與料中的種種現象 * * 一班時間與處所也都是名詞 * 舉些例子 還有一些就不提了 MX:係數詞 MW:位數詞 DN:否定副詞 VU:能態動詞 * * V + D + v是漢語中重要的現象 * * * 相鄰兩個成分直接組成衣短語還是分成兩個不同的短語 如何去識別一線姓詞語串的內部結構 進而了解意義如何 怎樣讓機器自動在語境中識別歧義短語從而達到正確理解句子內容 * * 這邊只列出12 有16種 * 吳育奇 《漢語文本短語結構的人工標注》 語料庫的加工與應用 Outline 前言 語料的加工 分詞與詞性標注 短語標注 語料的應用 結論 前言 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 自動詞法 ? 自動句法 利用詞法成果 提供自動句法基礎 如何實現語言的計算機自動理解 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等 前言 遇到的問題 錯誤率:分析系統缺少足夠的知識庫 把人對自然語言句法分析用型式符號標注 對100萬字的語料庫進行加工: 分詞及詞性標注 用已有的做些加工及修改 標注短語結構 人工標注 語料的加工 分詞及詞性標注 對純文本語料進行分詞及詞性標注 切分單位 詞定義有些模糊不清的地方 偏正結構(雞蛋、鴨蛋) 動賓結構(打球、理髮、出丑) 動補結構(證明、看見、放大) 基本上參考採用“北大加工規範” 語料的加工 詞性標記 現有詞性標注集 27大類 有些分類細 有些分類粗 語料的加工 自定標注集 標注細一點,因 沒詞典做支撐 適當吸收現代漢 語研究結果來做 分類 語料的加工 23個大類,用英文字母表示,有11個大類下面有小類,有一個小類下面有小小類 ex ︰n 名詞 nr 人名 nrx 姓 nrm 名 可以查得粗,也可查得細,視研究的需要,ex︰配合《現代漢語語法信息詞典》來做模糊找查 一共有86個標記符號 語料的加工 與”北大加工規範”不同之處︰ 時間詞(nt)、處所詞(ns)放在名詞大類下面,如果要單一查某類,可用小類標記符號查尋 區別詞(ab)放在形容詞大類中 五種語素標記法,顛倒字母次序,方便找查 Ng Vg Ag Dg Tg ? gN gV gA gD gT 去掉名動詞vn、名形詞an、副動詞vd、副形詞ad 在10個大類中設立了10個其他的小類,記做~g 語料的加工 切分標注具體說明 加標注符號 : “ / ” 對”北大加工規範” 及”分詞規範”做些調整 分詞規範 加名詞性分詞單位應為分單位:非金屬、超聲波 非 超 為區別詞 ? 非/ab 金屬/ng 超/ab聲波/ng 漢語數位詞分別為分詞單位 五千三百零二 ?五/mx 千/mw 三/mx 百/mw 零/um 二/mx 經常使用副詞作用的詞組為分詞單位 不得不 ? 不/dn 得/vu 不/dn 語料的加工 對”北大加工規範”做的介紹及調整 人名:nr 姓與名都分開 nrx nrm 不易或不知道姓與名就記作nr 王/nr建民/nr ? 王/nrx 建民/nrm 大衛?歐提茲/nr ?大衛/nrm?/w歐提茲/nrx 地名:nd 長的國名要考慮切割 中華人民共和國/nd ?﹛中華/ab 人民/ng 共和國/ng﹜nd 只有在行政區名稱是單音節且前面成分也是單音節為一切分單位:{台北/nd市/n}nd 台州/nd 長江/nd etc 語料的加工 對”北大加工規範”做的介紹及調整 團體組織 : nj “外交部” “國務院”為普通名詞 外交部/ng [美國/nd國務院/ng ] nj 其他專有名詞 : nz 只有當前面是單音節且兩者緊密結合才不切 滿人/nz 漢人/nz 數詞量詞 : 1 阿拉伯數字不切分 123.4/m 2 基數序數應切分 3 零不是一般係數詞 有點像助詞 : um 4 ”左右“”成千”為概數詞 ma 5 ”一些”應該需再切分 否則會被誤解 語料的加工 對”北大加工規範”做的介紹及調整 動詞加動詞或動詞加形容詞構成的述補結構 “v + 得/不 + x”應統一加以切分 : 來不及/v ? 來/v 不/d 及/v 有些成語或慣用語結構不那麼緊密也應有切分 AAB重疊型 : 為一切分單位 雙音節離合動詞的AAB 洗洗澡/v 揮揮手/v 單音節動詞的重疊式加“看” 試試看/v 唸唸看/v 語料的加

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档