网站大量收购独家精品文档,联系QQ:2885784924

当代汉语文本语料库分词词性标注加工规范.pdfVIP

当代汉语文本语料库分词词性标注加工规范.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如有你有帮助,请购买下载,谢谢! 973 当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从 1988 年开始进行汉语语料库的深加工研究, 首先是对原始语料进行切分和词性 标注, 1992 年制定了《信息处理用现代汉语文本分词规范》 。经过多年研究和修改, 2000 年又 制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》 。这次承担 973 任 务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是 一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领 域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973 当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》 ,中国国家标准 GB13715,1992 年 2.《信息处理用现代汉语词类标记规范》 ,中华人民共和国教育部、国家语言文字工作委员 会 2003 年发布 3.《现代汉语语料库文本分词规范》 (Ver 3 .0 ),1998 年 北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 4 .《现代汉语语料库加工规范——词语切分与词性标注》 , 1999 年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》 ,2002 年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》 ,2000 年 山西大学计算机科学系 山西大学计算机应用研究所 7.《資讯处理用中文分词标准》 ,1996 年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准 GB13715 《信息处理用现代汉语分词规范》 (以 下简称为“分词规范” )保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原 则及规则。追求分词后语料的一致性( consistency )是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在 某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。 本文中仍用 “词”来称谓 “分 词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构 体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是 否具有组合性。 4. 本规范规定的分词原则及规则, 既要适应语言信息处理与语料库语言学研究的需要, 又 力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。 一时难以判定是否切分的结构体, 暂不切分。 二、 词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1) 语法功能原则。 语法功能是词类划分的主要依据。 词的意义不作为划分词类的主要依据, 但有时也起着某些参考作用。 1 页 如有你有帮助,请购买下载,谢谢! (2) 允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能 的分布概率不同。 在信息处理用现代汉语词类体系中,

文档评论(0)

小光老师 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体赛罕区发光网络技术服务部
IP属地内蒙古
统一社会信用代码/组织机构代码
92150105MAC8HM2M1T

1亿VIP精品文档

相关文档