- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识组织系统构建中对既有资源的利用方式分析-数字图书馆论坛
本期话题
http: //
知识组织系统构建中对既有
资源的利用方式分析*
□ 张运良 张兆锋 闫莹莹 许德山 / 中国科学技术信息研究所 北京 100038
摘要:知识组织系统的构建是一项艰巨而复杂的工作,而利用既有资源,尤其是词表和语料,则在一定程度
上能够减少这一任务的工作量。文章据此研究了对既有资源利用方式的四个相关问题。首先是从既有知识组织系
统中提取出所需局部的方式及注意事项。其次是跨语言利用外文知识组织系统,生成当地语言知识组织系统雏
形。再次是从选词、相关词推荐和词间关系验证等角度分析语料库在知识组织系统构建过程中的应用。最后探索
了建设中的知识组织系统的利用方式,并提 出了两个循环模型。了解和掌握对既有资源的利用方式,能够促进更
好更快地构建知识组织系统。
关键词:知识组织系统,既有资源,语料库,利用方式,循环模型
DOI :10.3772/j .issn .1673—2286.2013.11.006
引言 统构建最为重要的几类知识包括 是综合性的领域,如工程技术,或
词条、词条定义、翻译、属性以及 者交叉性新兴领域,如新能源汽车
[1]
知识组织系统包括叙词表、词 词条之间的关系。在对既有资源利 领域 。
系统、本体等不同的类型。根据其 用方面,本文结合工作实践,重点 对于只有一个知识组织系统来
领域和知识结构的不同,可以用于 分析了对既有同语言知识组织系 源的情况,处理相对比较简单,仅
文献标引、专利分析、科技监测、情 统、既有跨语言知识组织系统以及 仅从中抽取出需要的内容即可。主
报分析等信息和知识服务,在面对 语料库系统的利用方式。同时,本 要有三种抽取方式:1)按照词族抽
海量信息资源的条件下,对知识组 文提出知识组织系统建设中对已 取;2 )按照范畴抽取;3)按照子网
[ 1]
织系统的需求也在不断增加 。但 经建成部分的利用,并提出两种循 络抽取。
是,构建知识组织系统是一项艰 环利用模式。 如图1中(A )为一个叙词表的
巨而复杂的工作,需要大量具体领 局部的示意。其中圆圈表示词条,
域和知识组织系统方面专业人士 1 利用既有同语言知识 双圈特别表示族首词。而单箭头
的参与。在这种情况下,如何能够 组织系统 表示层级关系,从上位词指向下位
以较低的成本,更快更好地建设知 词,不同颜色的单箭头联系起不同
识组织系统则变得尤为重要。一方 知识组织系统是来自现实世界 的词族,在这一叙词表局部中包含
面,既有的不同类型的知识组织 的知识体系,而知识体系是一脉相 三个词族。紫色的双箭头表示在局
系统或多或少能够提供一部分在 承的,所以总能找到一些相关的知 部范围内的相关关系,而黑色的虚
待建知识组织系统仍然适用的知 识组织系统。从既有知识组织系 线表示词条对应的其他相关关系
识。另一方面,与待建知识组织系 统的数量上看,可能存在一部或者 和用代关系。按照词族抽取,可以
统相关的语料资源,能够保证知识 多部,一部的情况多对应相对比较 仅仅抽取词条以及词族范围内的上
[2]
的准确性。不同类型的知识组织系 局限的狭小领域,如顶级机构 ;多 下位关系,也可以此为基础,进一
统内容不尽相同,对于知识组织系 部的情况对应建立知识组织系统 步扩展抽取出一定范围内的关系和
* 本文系国家自然科学基金项 目 “面向特
文档评论(0)