- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
当代汉语文本语料库分词词性标注加工规范草案山西大学从年开始进行汉语语料库的深加工研究首先是对原始语料进行切分和词性标注年制定了信息处理用现代汉语文本分词规范经过多年研究和修改年又制定出现代汉语语料库文本分词规范和现代汉语语料库文本词性体系这次承担任务后制定出本规范本规范主要吸收了语言学家的研究成果并兼顾各家的词性分类体系是一套从信息处理的实际要求出发的当代汉语文本加工规范本加工规范适用于汉语信息处理领域具有开放性和灵活性以便适用于不同的中文信息处理系统当代汉语文本语料库分词词性标注加工规范是根据
973当代汉语文本语料库分词、词性标注加工规范
(草案)
山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年
2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布
3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年
北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系
4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年
北京大学计算语言学研究所
5.《信息处理用现代汉语词类标记规范》,2002年,
教育部语言文字应用研究所计算语言学研究室
6.《现代汉语语料库文本分词规范说明》,2000年
山西大学计算机科学系 山西大学计算机应用研究所
7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会
一、分词总则
1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。
3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。
4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。
5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。二、词性标注总则
信息处理用现代汉语词性标注主要原则有三个:
(1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。
(2)允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。
(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。
为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。
三、 词类标记集
本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:
名词n:
普通名词(n)
时间名词(nt)
方位名词(nd)
处所名词(nl)
人名(nh)
汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)))ns)
族名(nn)
团体机构名(ni)
其他专有名词(nz)
动词v:
普通动词(v)
能愿动词(vu)
趋向动词(vd)
系动词(vl)
形容词:
性质形容词(aq)
状态形容词(as)
(4)区别词f
(5)数词m
(6)量词q
(7)副词d
(8)代词r
(9)介词p
(10)连词c
(11)助词u
(12)叹词e
(13)拟声词o
(14)习用语i
名词性习用语(in)
动词性习用语(iv)
形容词性习用语 (ia)
连词性习用语(ic)
(15)简称和略语j
名词性简称和略语 jn
动词性简称和略语 jv
形容词性简称和略语 ja
(16)前接成分h
(17)后接成分k
(18)语素字g
(19)非语素字x
(20)其它w:
您可能关注的文档
- 3范景胜熊朝瑞郑水明等简阳大耳羊生长发育规律研究j四川畜牧.doc
- 3成都茶盘单-世运食品.doc
- 3工程分析-藁城区环境保护局.doc
- 3建设项目环境影响评价预测及拟采取的主要措施与效果-苏州工业园区.doc
- 3关联项目概况与工程分析-台州环保局.doc
- 3手足口病试验室检测方案-中国疾病预防控制中心应用门户.doc
- 3肿瘤乳腺癌-gordascerdas.doc
- 4dna聚合酶.doc
- 4контрольиоценкарезультатовосвоенияучебнойдисциплины.doc
- 4补办母婴保健技术机构执业许可证.doc
- 2023年安全生产大检查工作方案范文(精选5篇).pdf
- 《荷塘月色》读书心得_1.pdf
- 《屈原列传》《苏武传》:探讨文中的价值取向教学设计【高中语文选择性必修中册(统编人教版)】.pdf
- 《公司信贷》课程标准.pdf
- 《中国历史地理学》期末考试复习资料.pdf
- 2023年注册城乡规划师之城乡规划管理与法规提升训练试卷A卷附答案.pdf
- 《仙剑奇侠传6》全敌人图鉴 全怪物BOSS一览.pdf
- 【2022年】江苏省泰州市【注册会计】公司战略与风险管理预测试题(含答案).pdf
- 《JavaWeb程序开发入门》课后练习(含答案).pdf
- 2022年江苏省普通高中学业水平等级性考试历史试题及解析.pdf
文档评论(0)