分词词性标注语料库计划任务完成情况-中文语言资源库.docVIP

分词词性标注语料库计划任务完成情况-中文语言资源库.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
当代汉语文本语料库分词词性标注工作报告项目名称中文语料库建设子项名称分词词性标注语料库承担单位山西大学计算机科学系负责人杨尔弘分词词性标注语料库是进行汉语信息处理的重要基础资源而语料库所采集的数据分词词性标注的规范加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量代表性复用性以及提供的信息的可靠性年月我单位承担了中文语料库建设的子项目分词与词性标注语料库的研制任务按照研究目标建成带有完整词类标记的当代汉语通用语料库选取了年媒体上流通的文本力求表现当代语言的最新面貌针对信息处理的特

当代汉语文本语料库分词、词性标注工作报告 项目名称:中文语料库建设 子项名称:分词词性标注语料库 承担单位:山西大学计算机科学系 负责人: 杨尔弘 分词词性标注语料库是进行汉语信息处理的重要基础资源。而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。 2002年10 月,我单位承担了中文语料库建设的子项目:分词与词性标注语料库的研制任务。按照研究目标:建成带有完整词类标记的当代汉语通用语料库。选取了2002年媒体上流通的文本,力求表现当代语言的最新面貌。针对信息处理的特点,研究确定了本次加工的规范,按照规范采用人机结合的方法,加工完成了500万汉字语料的分词、标注任务,并对歧义切分、未登陆词语(专有名词与普通新词语)、兼类词进行了全面的检验。经过近一年的工作,按计划完成了课题的任务。我们主要进行了如下的研究工作: 完成了500万语料的收集、整理、分类工作。 研究制定了符合信息处理用的汉语分词与词性标注规范。 按照加工规范,全面审核了支持自动分词和自动词性标注的词表。 开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。 对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容 1.500万语料的收集、整理、分类工作 我们首先进行了语料的收集、选择、分类、预处理。 语料选材原则 ·力求反映当代汉语的最新面貌。 ·从主题、体裁、来源三个方面综合考虑 ·以自然段落为准,而不是以文章长度为准。避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。这样作可以得到较完整的语言信息的内容。 语料来源 语料来源于电子报刊、电子杂志以及杂志的电子版 ·文学网站 ·普通网站 ·特选专题 抽样原则与方法 ·抽样原则 时间性:2002年流通的文本 普遍性:传播率较高,流通时间较长的文本 完整性:2000字以下全篇采用,其余按比例、按自然段截取。 ·具体的选材方法:根据文本的属性特点,决定选择的部位及内容。 文本属性描述 ·每个文本的属性:主题、体裁、来源(媒体名称、所在位置)、时间、标题 语料的分布情况 按照上述选材原则和方法,目前产生的语料库包含的文本个数为3100篇,总共包含的字数为6,058,115个。按体裁和主题分布情况如表1、表2 表1 体裁分类 包含文章数 包含的词语数 包含的汉字数 所占的比例 新闻报道 1176 1020645 1636660 27.02% 小说(故事、传说) 257 362980 776358 12.82% 散文 115 153236 233003 3.85% 剧本 14 19731 35736 0.59% 说明文(包括广告、公告、技术手册) 512 661154 1294232 21.36% 信函 1 1265 1738 0.02% 议论文(包括评论) 786 887870 1468218 24.24% 传记 74 93437 143965 2.38% 话语记录 138 212158 420109 6.93% 杂文 27 27772 48096 0.79% 合计 3100 3440248 6058115 100% 表2 主题分类 包含文章数 包含的词语数 包含的汉字数 所占的比例 公益 185 210383 362649 5.99% 教育 194 212396 415342 6.85% 习俗/风俗 70 71073 113267 1.87% 生活 367 414661 789000 13.02% 娱乐 172 178841 299872 4.95% 工程(土木、修路) 66 101728 199843 3.30% 政治 350 373084 608850 10.05% 经济 517 597666 1045429 17.26% 法律 108 104069 197808 3.27% 体育 184 159125 255411 4.22% 军事 83 93849 145844 2.41% 艺术 140 200319 397058 6.55% 人文科学(历史地理、哲学、宗教、) 209 292283 507179 8.37% 基础科学(数、理、化) 142 128354 207075 3.42% 应用技术 242 230728 402481 6.64% 交通 71 71698 111007 1.83% 合计 3100 3440248 6058115 100% 2.研究制定了符合信息处理用的汉语分词与词性标注的加工规范。 加工规范的制定 山西大学从1988 年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年

文档评论(0)

zhaohuifei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档