标注语料库数据及使用说明.pdfVIP

  • 91
  • 0
  • 约1.14万字
  • 约 15页
  • 2017-03-31 发布于湖北
  • 举报
标注语料库数据及使用说明

国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明 肖航 教育部语言文字应用研究所 1. 国家语委现代汉语通用平衡语料库 1.1 语料库全库 国家语委现代汉语通用平衡语料库全库约为 1 亿字符,其中 1997 年以前的语料约 7000 万字符,均为手工录入印刷版语料;1997 之后的语料约为 3000 万字符,手工录入 和取自电子文本各半。 语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。语料库类别分 布如下所示: 1.2 标注语料库 标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约 5000 万字符。标 注是指分词和词类标注,已经经过 3 次人工校对,准确率大于98%。 语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。标注 语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。标注语料库类别分布 如下所示: 标注语料库与全库的样本分布比较如下所示: (蓝色曲线为语料库全库;红色曲线为标注语料库) 2. 国家语委现代汉语通用平衡语料库语料选材与样本分布 2.1 选材原则 依据材料内容,选材大体作如下分类:(下文字数为建库时数据) 2.1.1 教材 大中小学教材单作一类,约 2000 万字。 2.1.2 人文与社会科学的语言材料约占全库的 60%,共 300

文档评论(0)

1亿VIP精品文档

相关文档