分词词性标注语料库计划任务完成情况.doc

分词词性标注语料库计划任务完成情况.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分词词性标注语料库计划任务完成情况

当代汉语文本语料库分词、词性标注工作报告 项目名称中文语料库建设名称 分词词性标注语料库是进行汉语信息处理的重要基础资源。而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。 2002年10 月,我单位承担了中文语料库建设 包含文章数 包含的词语数 包含的汉字数 所占的比例 新闻报道 1176 1020645 1636660 27.02% 小说(故事、传说) 257 362980 776358 12.82% 散文 115 153236 233003 3.85% 剧本 14 19731 35736 0.59% 说明文(包括广告、公告、技术手册) 512 661154 1294232 21.36% 信函 1 1265 1738 0.02% 议论文(包括评论) 786 887870 1468218 24.24% 传记 74 93437 143965 2.38% 话语记录 138 212158 420109 6.93% 杂文 27 27772 48096 0.79% 合计 3100 3440248 6058115 100% 表2 主题分类 包含文章数 包含的词语数 包含的汉字数 所占的比例 公益 185 210383 362649 5.99% 教育 194 212396 415342 6.85% 习俗/风俗 70 71073 113267 1.87% 生活 367 414661 789000 13.02% 娱乐 172 178841 299872 4.95% 工程(土木、修路) 66 101728 199843 3.30% 政治 350 373084 608850 10.05% 经济 517 597666 1045429 17.26% 法律 108 104069 197808 3.27% 体育 184 159125 255411 4.22% 军事 83 93849 145844 2.41% 艺术 140 200319 397058 6.55% 人文科学(历史地理、哲学、宗教、) 209 292283 507179 8.37% 基础科学(数、理、化) 142 128354 207075 3.42% 应用技术 242 230728 402481 6.64% 交通 71 71698 111007 1.83% 合计 3100 3440248 6058115 100% 2.研究制定了符合信息处理用的汉语分词与词性标注的加工规范。 加工规范的制定 山西大学从1988 年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》《现代汉语语料库文本词性体系》。这次承担973任务后,与语用所、清华大学、北京大学的有关专家进行了讨论,同时,参照国内已有的相关规范,制定出《973当代汉语文本语料库分词、词性标注加工规范》。本规范吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 制定加工规范参考的资料 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年,北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年,北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年,山西大学计算机科学系 山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 8.《信息处理用现代汉语分词词表》规范,2003年,清华大学 加工规范确定的词类标注体系 《973当代汉语文本语料库分词、词性标注加工规范》的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,增加了部分细类,特别是对人名、地名等进行了细致的分类标注。具体词类如下: 名词n: 普通名词(n) 时间名词(nt) 方位名词(nd) 处所名词(nl) 人名(nh) 汉族或类汉族

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档