《漢語文本短語結構的人工標注》語料国立台中.pptVIP

  • 2
  • 0
  • 约3.79千字
  • 约 23页
  • 2018-05-28 发布于福建
  • 举报

《漢語文本短語結構的人工標注》語料国立台中.ppt

《漢語文本短語結構的人工標注》語料国立台中

收集一些其他人做過的標注及研究 比較粗的因為有辭典做支撐 * 用現有的成果對與料座標注後 在考察實際與料中的種種現象 * * 一班時間與處所也都是名詞 * 舉些例子 還有一些就不提了 MX:係數詞 MW:位數詞 DN:否定副詞 VU:能態動詞 * * V + D + v是漢語中重要的現象 * * * 相鄰兩個成分直接組成衣短語還是分成兩個不同的短語 如何去識別一線姓詞語串的內部結構 進而了解意義如何 怎樣讓機器自動在語境中識別歧義短語從而達到正確理解句子內容 * * 這邊只列出12 有16種 * 吳育奇 《漢語文本短語結構的人工標注》 語料庫的加工與應用 Outline 前言 語料的加工 分詞與詞性標注 短語標注 語料的應用 結論 前言 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 自動詞法 ? 自動句法 利用詞法成果 提供自動句法基礎 如何實現語言的計算機自動理解 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等 前言 遇到的問題 錯誤率:分析系統缺少足夠的知識庫 把人對自然語言句法分析用型式符號標注 對100萬字的語料庫進行加工: 分詞及詞性標注 用已有的做些加工及修改 標注短語結構 人工標注 語料的加工 分詞及詞性標注 對純文本語料進行分詞及詞性標注 切分單位 詞定義有些模糊不清的地方 偏正結構(雞蛋、鴨蛋)

文档评论(0)

1亿VIP精品文档

相关文档