- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HNC汉语词语知识库的质量保证与提高①
苗传江
北京师范大学中文信息处理研究所 北京 100875
miaochj@bnu.edu.cn
摘要:HNC汉语词语知识库需要不断进行升级,质量保证和提高是升级工作
的重要课题。本文从四个方面讨论了质量保证与提高的措施:(1)完善填写规范;
(2)培养专业人才;(3)建立研发平台;(4)制定质检方案。
关键词:HNC,知识库,词语库规范,质检方案,研发平台
一,HNC汉语词语知识库的现状
Network
ofConcepts,概念层次网络)理论为指导,以语义知识为中心,描述词语和句子层
面的概念联想脉络,建立汉语句子理解处理所需的知识资源。经过9年多的不断积
语句子理解处理的宝贵资源,其规模和水平都已达到了中文信息处理应用系统开
发的基本要求,我们已经成功开发的多个应用系统(如文本信息分类、有害信息过
滤、农业信息智能检索等)都是以这一资源为支撑的。
但是,从我们的长远和总体目标来看,HNC词语库目前只是实现了1.0版本
的要求,还需要从两个方面不断进行升级,一是词语数量的扩充,二是内容质量
的保证和提高,相比之下,后者更为重要,也更为艰巨。要保证和提高HNC词语
库的质量,需要从四个方面采取措施:第一,完善知识库填写规范;第二,培养
知识库建设的专业人才;第三,建立服务于知识库建设的平台环境;第四,制订
并实施切实可行的质量监督和检查方案。下面就对这四个方面的措施做进一步的
说明。
①本文得到国家高技术研究发展计划(863)项目“中文信息处理应用基础研究”(编号:
2001AAll4210)及北京大正语言知识处理研究院的资助。
二,措施一:完善填写规范
填写规范是HNC词语库的技术文档,它有两方面的作用,一是作为填库者应
遵循的标准,二是作为用库者可参考的手册。填写规范的制订要兼顾两方面的需
要,追求两方面的目标,一方面是填写时的明晰和简便,另一方面是使用时的准
确和高效,要尽量避免顾此失彼。完善填写规范的目标自然也就是为了更好地满
足这两个方面的需要。
HNC词语库已达到近6万词的规模,规范的变动常常会带来大量的维护下作,
因此词语库的总体结构要保持相对稳定,在这个前提下,完善规范的基本工作就
是使各知识项的填写要求进一步明细化。对各知识项的填写要求无非是围绕两个
方面,一是描述什么,二是怎么描述。前者要说明描述的是什么语言现象,而且
更重要的是要说明理解处理需要的是什么样的知识。后者不但要说明用什么方法
和符号来描述知识,而且要说明这种知识描述在理解处理的过程中起什么作用。
在HNC词语库的各知识项中,需要对填写要求进行明细化的重点是概念类
别、HNC符号和句类知识三大项。
(一)概念类别
概念类别是理解处理首先需要的、最简明的知识,它是对词语的意义和用法
的提炼,是具有激活作用的词语知识,所以,对概念类别符号的设计和定义更要
紧密配合理解处理的需要。对概念类别的明细化就是要进一步明确每个概念类别
符号的功用,明确它们的使用条件。下面举几个例子来说明。
1.概念的动态表现v与静态表现g的兼类
概念类别符号v表示概念的动态表现,属于动词,g表示概念的静态表现,属
于名词,二者的兼类属于动名兼类,比如“教育”一词就是兼类的,它的概念类别
知识项里要同时填v和g两个类别符号。那么,什么时候该填v与g的兼类呢?填
v的充分必要条件是明确的,那就是能充当特征语义块的核心,因此,是否v与g
兼类的问题实际上就是,对一个填了v的词语来说,根据什么条件来判断是否填g
呢?首先有一点是明确的:像“这本书的出版具有重要意义”里的“出版”并不是g,
因为它充当的是E要素句蜕里的特征语义块,仍然是v,所以,不能因为一个动词
有这种用法而认为它兼有g类别。除了这一点以外,还没有进一步界定兼有g类别
的判断条件,但要点是明确的:v与g兼类的判断准则要与理解处理中语义块感知
阶段的排除准则密切配合,排除准则的条件都不能作为v兼有g的判断条件。例
如,Z9排除准则是说,出现在指代逻辑概念z9后面的动词应排除它作为全局特征
语义块的资格,它所描述的“出现在指代逻辑概念Z9后面”这个条件,就不能用来
判定一个v兼有g类别,所以,不能因为有“这次修订”而认为“修订”兼有g类别。
2.具体物概念的子类划分
现在的填写规范把具体物概念划分为如下子类:
符号 含
您可能关注的文档
- HLA技术的应用探讨研究.pdf
- HLA中的对象模型浅析研究.pdf
- HLCⅠ在船闸廊道混凝土中的应用研究.pdf
- HLCI抗裂防渗剂及其在大型工程中的应用研究.pdf
- HLHGM高强无收缩灌浆料性能及其应用实践研究.pdf
- HLQS气流筛粉机的原理和未来发展趋势研究.pdf
- HLS单团注入系统配套装置的研制研究.pdf
- HL沸石催化乙酸苯酯Fries重排研究.pdf
- HL一1M等离子体软调辐射强度扰动及电流剖面分析研究.pdf
- HMCM22的二氢吡喃衍生物水解性能研讨.pdf
- HNC农村智能信息检索系统研究.pdf
- HNC语料标注的XML规范研究.pdf
- HNC自然语言理解平台建设研究.pdf
- HNST电厂超临界600MW汽轮机组特点及若干质量问题的分析研究.pdf
- Holland参数B对CE风场数值模拟结果的影响研讨.pdf
- HomePNA在家庭宽带接入双向化改造中的应用研究.pdf
- Honeywell+EPKS+C300系统在PVC装置中的应用研究.pdf
- Honeywell+TPS系统在高炉鼓风机过程控制中的应用研究.pdf
- Honeywell+UniSim+Suite的技术特点及在煤化工方面的应用研究.pdf
- HoneywellC200在网带式全氢保护热处理生产线上的应用研究.pdf
文档评论(0)