973课题G1998030501A-01.docVIP

  • 0
  • 0
  • 约7.53千字
  • 约 6页
  • 2017-11-26 发布于江苏
  • 举报
973课题G1998030501A-01

973课题G1998030501A-01 《汉语语法信息词典(高频词)》 技术报告 1. 任务概述 973课题G1998030501A-01规定的任务可作如下概述:根据1998年全年2600万字《人民日报》基本标注语料库(以下简称“北大基本标注语料库”或“标注语料库”)统计词频,将《现代汉语语法信息词典》中所包含的25000-30000个高频词及其相关语法属性信息全部抽取出来,形成一个《现代汉语语法信息词典》的高频词子集,再在该子集中对每个词语补充两项信息:频度与从语料库挑选的3-5个例句。这样便得到任务书所要求的《汉语语法信息词典(高频词)》。 由此可见,本项任务完全立足于北京大学计算语言学研究所的两个基础资源:《现代汉语语法信息词典》和北大基本标注语料库。表面上看来,有了这两个资源,完成任务并不困难。然而,当实际应用这两个根据不同需求先后开发的资源时,仍有一些复杂的问题需要解决。 独立地考察,《现代汉语语法信息词典》和北大基本标注语料库的质量是完全可以信赖的,已得到业界的普遍认可,尽管不能说没有瑕疵(flaw)。但是,当综合应用这两项资源时,它们之间的“缝隙”或“鸿沟”(gap)立即暴露出来了。 如何处理不同知识库之间在应用时暴露出来时的“缝隙”,可能成为今后知识库建设和应用的普遍问题。 两个知识库的“缝隙”描述 《现代汉语语法信息词典详解(第二版)》(2003年2月清华大学

文档评论(0)

1亿VIP精品文档

相关文档