中文信息处理的词法问题以句本位语法图解树库构建为背景.pptVIP

  • 1
  • 0
  • 约 16页
  • 2017-08-29 发布于云南
  • 举报

中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt

中文信息处理的词法问题 ——以句本位语法图解树库构建为背景 彭炜明(北京大学计算语言学研究所) 宋继华(北京师范大学信息科学与技术学院) 汉语树库建设现状 汉语树库的目前两分天下的格局: 短语结构树 依存结构树 树库构建的困难: 一致性难以保证 层次分析琐碎、标注效率低下 复句→单句→词组→词→语素、非语素字、前接成分、后接成分…… 句本位语法图解树库 “句本位”:汉语语法分析当以句法为主,词法服从于句法。 分词单位:能按句法分析则分析,否则整体为一个造句单位,内部结构属于词法分析范围。 词类标注:“依句辨品,离句无品” 标注示例 勤劳的铁路工人正准备修建天桥的材料。 句法分析的边界 图解树库的启示 词法分析有别于句法分析,有必要划清界限。 有利于树库构建 有利于句法分析 中文信息处理现行框架下: 词法分析(分词+词性标注)→句法、语义分析 词法分析没有很好地完成为后续句法分析提供有效造句材料的任务。 以“句本位”的眼光看,中文信息处理根本就没有“词法分析”! 词法分析的边界 图解树库将所谓“临时造词”纳入词法分析的范围之内。 参考北大语料库加工规范(简称《北大规范》)按照重叠、附加、复合三类构词方式分别梳理 重叠 “AA”重叠形:走走/v,好好/d,人人/n,个个/q,常常/d; “AAB”重叠形:洗洗澡/v,试试看/v; “ABB”重叠形:孤单单/z,一个个/mq “

文档评论(0)

1亿VIP精品文档

相关文档