HNC汉语词语知识库的质量保证与提高研究.pdfVIP

HNC汉语词语知识库的质量保证与提高研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HNC汉语词语知识库的质量保证与提高① 苗传江 北京师范大学中文信息处理研究所 北京 100875 miaochj@bnu.edu.cn 摘要:HNC汉语词语知识库需要不断进行升级,质量保证和提高是升级工作 的重要课题。本文从四个方面讨论了质量保证与提高的措施:(1)完善填写规范; (2)培养专业人才;(3)建立研发平台;(4)制定质检方案。 关键词:HNC,知识库,词语库规范,质检方案,研发平台 一,HNC汉语词语知识库的现状 Network ofConcepts,概念层次网络)理论为指导,以语义知识为中心,描述词语和句子层 面的概念联想脉络,建立汉语句子理解处理所需的知识资源。经过9年多的不断积 语句子理解处理的宝贵资源,其规模和水平都已达到了中文信息处理应用系统开 发的基本要求,我们已经成功开发的多个应用系统(如文本信息分类、有害信息过 滤、农业信息智能检索等)都是以这一资源为支撑的。 但是,从我们的长远和总体目标来看,HNC词语库目前只是实现了1.0版本 的要求,还需要从两个方面不断进行升级,一是词语数量的扩充,二是内容质量 的保证和提高,相比之下,后者更为重要,也更为艰巨。要保证和提高HNC词语 库的质量,需要从四个方面采取措施:第一,完善知识库填写规范;第二,培养 知识库建设的专业人才;第三,建立服务于知识库建设的平台环境;第四,制订 并实施切实可行的质量监督和检查方案。下面就对这四个方面的措施做进一步的 说明。 ①本文得到国家高技术研究发展计划(863)项目“中文信息处理应用基础研究”(编号: 2001AAll4210)及北京大正语言知识处理研究院的资助。 二,措施一:完善填写规范 填写规范是HNC词语库的技术文档,它有两方面的作用,一是作为填库者应 遵循的标准,二是作为用库者可参考的手册。填写规范的制订要兼顾两方面的需 要,追求两方面的目标,一方面是填写时的明晰和简便,另一方面是使用时的准 确和高效,要尽量避免顾此失彼。完善填写规范的目标自然也就是为了更好地满 足这两个方面的需要。 HNC词语库已达到近6万词的规模,规范的变动常常会带来大量的维护下作, 因此词语库的总体结构要保持相对稳定,在这个前提下,完善规范的基本工作就 是使各知识项的填写要求进一步明细化。对各知识项的填写要求无非是围绕两个 方面,一是描述什么,二是怎么描述。前者要说明描述的是什么语言现象,而且 更重要的是要说明理解处理需要的是什么样的知识。后者不但要说明用什么方法 和符号来描述知识,而且要说明这种知识描述在理解处理的过程中起什么作用。 在HNC词语库的各知识项中,需要对填写要求进行明细化的重点是概念类 别、HNC符号和句类知识三大项。 (一)概念类别 概念类别是理解处理首先需要的、最简明的知识,它是对词语的意义和用法 的提炼,是具有激活作用的词语知识,所以,对概念类别符号的设计和定义更要 紧密配合理解处理的需要。对概念类别的明细化就是要进一步明确每个概念类别 符号的功用,明确它们的使用条件。下面举几个例子来说明。 1.概念的动态表现v与静态表现g的兼类 概念类别符号v表示概念的动态表现,属于动词,g表示概念的静态表现,属 于名词,二者的兼类属于动名兼类,比如“教育”一词就是兼类的,它的概念类别 知识项里要同时填v和g两个类别符号。那么,什么时候该填v与g的兼类呢?填 v的充分必要条件是明确的,那就是能充当特征语义块的核心,因此,是否v与g 兼类的问题实际上就是,对一个填了v的词语来说,根据什么条件来判断是否填g 呢?首先有一点是明确的:像“这本书的出版具有重要意义”里的“出版”并不是g, 因为它充当的是E要素句蜕里的特征语义块,仍然是v,所以,不能因为一个动词 有这种用法而认为它兼有g类别。除了这一点以外,还没有进一步界定兼有g类别 的判断条件,但要点是明确的:v与g兼类的判断准则要与理解处理中语义块感知 阶段的排除准则密切配合,排除准则的条件都不能作为v兼有g的判断条件。例 如,Z9排除准则是说,出现在指代逻辑概念z9后面的动词应排除它作为全局特征 语义块的资格,它所描述的“出现在指代逻辑概念Z9后面”这个条件,就不能用来 判定一个v兼有g类别,所以,不能因为有“这次修订”而认为“修订”兼有g类别。 2.具体物概念的子类划分 现在的填写规范把具体物概念划分为如下子类: 符号 含

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档