信息处理用现代汉语词类标记规范 编制说明.pdf

信息处理用现代汉语词类标记规范 编制说明.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《信息处理用现代汉语词类标记规范》(修订稿)

编制说明

一、工作简况,包括任务来源、制定背景、起草过程等

(一)任务来源与修订背景

词类是词的语法分类,主要是根据语法功能划分出来的类。词类标注是给词

语标记类别、实现各如其类的过程,也是中文信息处理与语言资源建设、辞书编

撰、语言教学、数字出版等工作中的一个基础性任务。上世纪九十年代,我国在

语料库建设及标注加工方面取得了不少研究成果,但由于各个系统的标注集和标

记代码不统一,给信息交换和数据共享带来了困难,迫切需要面向语言文字信息

处理研制通用的规范标准,引导汉语语料库和信息处理系统词类标记的规范化,

促进语言资源建设与应用。《信息处理用现代汉语词类标记规范》(以下简称“词

类标记规范”)应运而生,其研制目的是面向信息处理领域提供一套统一的现代

汉语词类标记代码体系,供中文信息处理与语言资源建设参照使用,也可供辞书

编撰、汉语教学等领域参考。

这一规范由教育部、国家语委组织立项,教育部语言文字应用研究所承担。

规范研制完成后,经国家国家标准化管理部门审定,于2006年9月以推荐性国家

标准的形式发布,标准号为GB/T20532-2006,自2007年3月开始实施。

词类标记规范的研制与发布顺应了语言资源建设和信息处理研究迅速发展

的潮流,成为汉语语料库标注的重要参考标准,受到学术界、产业界的欢迎。但

近年来,随着现代汉语词类研究的深入,大规模语言资源建设的发展及中文信息

处理技术的飞速进步,原规范也需要与时俱进,适当加以修订,以适应相关领域

的实际需要。

2017年10月,由北京师范大学以及教育部语言文字应用研究所联合组成的课

题团队承担了国家语委十三五科研规划重点项目“《信息处理用现代汉语词类规

范》(ZDI135-42)修订”。至2020年9月,课题组完成了《信息处理用现代汉语

词类标记规范》(修订稿)。2024年5月14日,国家标准化管理委员会下达“《信

息处理用现代汉语词类标记规范》国家标准修订”计划,计划号T-360。

1

词类标记规范提出了信息处理中现代汉语的词类体系、词类分类及标记代码,

在促进中文信息处理系统的规范化,促进语言资源的信息交换与共享方面起到了

重要推动作用,但由于自然语言处理技术发展、汉词词类问题研究深化以及实践

需要等原因,仍存在一些需要完善之处,例如:

(1)原规范标记体系的系统自洽性有待提升。原规范面向信息处理、语言

资源建设,规定了词类标记以及其他切分单位标记两套标记体系,二者需要更好

地融合,以增强规范系统的内在一致性。

(2)原规范研制工作对词类标注中最为复杂的词类兼类、词类活用问题基

本没有讨论和界定,这样处理虽然暂时避免了争议,但应用于语料库建设时,使

用者需要再次制定相应的规范,因此,修订工作应进一步明确对兼类等问题的处

理意见。

(3)汉语词类问题研究的新进展为规范修订提供了有利条件。原规范对不

同的词类体系兼容不足,比如规定方位词、时间词属于名词,是名词下的小类而

不是自成一类,修订工作应吸收最新的研究成果,以更好地适应语言实际应用中

的需求。

(4)原规范缺少配套的操作细则及示范性语料库,一定程度上限制了语言

信息处理技术或产品开发中对规范标准的高效应用,影响了规范的有效推广。

原规范自实施以来,国内外的汉语语言资源建设等工作虽不同程度上参考了

国标,但自行制定的标注规范各具特色,不同规范之间存在较大差异,资源共享

与整合问题尤为突出,并引发了某些新的信息孤岛甚至数据混乱现象。随着理论

研究的深入,中文信息处理技术的迅速发展,以及国家对语言安全和语言文字规

范标准建设的日益重视,词类标记规范修订已成为必要之举。修订工作应吸纳最

新的研究成果,提升其适用性,以更好地支持中文信息处理与语言资源建设、词

典编撰、语言教学等相关领域的创新应用,进而增强规范的生命力。

(二)修订过程

课题组通过广泛的文献调研、多次组织专家咨询,开展了较为深入的专题研

究,提出了“《信息处理用现代汉语词类标记规范》修订方案”,在修订方案确

定的重点研究内容基础上,开展了多种形式、多个轮次专家意见咨询以及专题讨

论会,积极采纳专家意见,逐个分析处理,初步建设示范性语料库,并在此过程

中调整和修订相关内容,反复征求专家意见建议,形成

文档评论(0)

std365 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档