- 91
- 0
- 约1.14万字
- 约 15页
- 2017-03-31 发布于湖北
- 举报
标注语料库数据及使用说明
国家语委现代汉语通用平衡语料库
标注语料库数据及使用说明
肖航
教育部语言文字应用研究所
1. 国家语委现代汉语通用平衡语料库
1.1 语料库全库
国家语委现代汉语通用平衡语料库全库约为 1 亿字符,其中 1997 年以前的语料约
7000 万字符,均为手工录入印刷版语料;1997 之后的语料约为 3000 万字符,手工录入
和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。语料库类别分
布如下所示:
1.2 标注语料库
标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约 5000 万字符。标
注是指分词和词类标注,已经经过 3 次人工校对,准确率大于98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。标注
语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。标注语料库类别分布
如下所示:
标注语料库与全库的样本分布比较如下所示:
(蓝色曲线为语料库全库;红色曲线为标注语料库)
2. 国家语委现代汉语通用平衡语料库语料选材与样本分布
2.1 选材原则
依据材料内容,选材大体作如下分类:(下文字数为建库时数据)
2.1.1 教材
大中小学教材单作一类,约 2000 万字。
2.1.2 人文与社会科学的语言材料约占全库的 60%,共 300
原创力文档

文档评论(0)