用于中文信息自动分类的《中图法》知识库的构建.pdfVIP

用于中文信息自动分类的《中图法》知识库的构建.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用于中文信息自动分类的《中图法》知识库的构建.pdf

用于中文信息自动分类的《中图法》知识库的构建 侯汉清薛春香 分类号、主题词、关键词是3种主题概念标识,三者之间存在着概念对应关系,即兼容关 系。中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通 过对这些数据的加工整理,以《中图法》类目体系为主干组织各学科领域的语词,从而构建出 反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。 本文详细讨论了该知识库的构建原理、结构、编制技术及使用等。 随着计算机、网络技术的迅速发展,为了实现网络信息处理的智能化、自动化和精细化,以 词表、分类表、语言形式出现的各种情报检索语言加快了与标记语言、超文本技术和其他软件 技术的融合,出现了新一代的情报检索语言与自然语言的结合体——知识组织系统。 知识组织系统是指各种对人类知识结构进行表达和有组织阐述的语义工具,主要包括分 类法、主题词表、语义网络、主题图、知识本体等。…分类法和主题词表在信息资源的加工组织 中发挥着重要的作用,而语义网络、主题图、知识本体则是针对第二代语义Web提出的知识组 织系统。本文所讨论的《中国图书馆分类法》(以下简称《中图法》)知识库也是一种知识组织 系统,或称为用于自动标引和分类的专家系统,它建立在《中图法》的基础上,通过机器统汁归 纳出众多人工标引记录中所凝结的标引经验,建立分类号、主题词、关键词之间的概念对应关 系,从而实现对文献的自动标引和自动分类,进而实现概念检索。 2《中图法》知识库构建的原理 分类检索语言、主题检索语言和自然语言是3种不同的情报语言系统,标识和组织方式各 不相同,但在本质上是一样的,都是一种主题概念标识系统,分类号、主题词、关键词都可用来 表示某一文献信息的主题概念。因此,这三者之间存在着隐含的概念对应关系,即兼容 关系。‘21 国内,大多数图书馆、情报机构和信息中心所拥有的文献数据库中存在着大量的人工标引 ,本文得到国家杜科基金项目02BTQ012的资助。 记录,这些记录中包含分类标引和主题标引(主题词串或关键词串)双重数据。我们可以通过 对这些标引数据的计算机处理,挖掘出分类号一主题词串一关键词串之间的概念对应关系,实 现三者之间的兼容互换。”o在此基础上,可以构建一个自动标引和自动分类用知识库,实现中 文文献的自然语言标引、主题规范、自动分类及概念检索。 不管是分类检索语言还是主韪检索语言,乃至任何知识组织系统,都使用了分类方法。分 类法采用公开的学科或专业体系,具有鸟瞰全貌、触类旁通的特点;主题法则采用隐蔽的分类 体系——参照系统、范畴索引、词族索引。分类法已经成为分类主题一体化系统的主体。在网 络时代,尤其Yahoo!成功运营之后,分类的思想已深人人心,从分类的角度组织海量信息更 易为人们所接收和理解。《中图法》是一个建立在知识分类基础上、可用于信息组织的概念语 义网络,之所以选择《中图法》作为本知识库的主干体系,”1是因为: (1)《中图法》是我国自编的一部大型综合性图书分类法,可用于图书资料、音像资料及其 他类型信息的分类标引和检索。它在国内有着最广泛的影响和最众多的用户,虽然未被正式 确立为国家标准,却早已被大家公认为“不是标准”的标准。 多次修订换版,具有广泛的学科覆盖面、完善的知识组织结构,在等级体系的基础上二加入了分 面组配的功能,能够适应现代文献信息分类自动化的需求。此外,《中图法》已建成了用最详 版发展。 (3)目前国内的几大文献数据库,如上海库、重庆库、清华库、万方库等的分类标引均以 《中图法》为分类依据,选择《中图法》作为知识库的组织框架,可以直接利用这些数量巨大,现 已达到数百万、上千万条的标引记录,从而免去类号转换的麻烦。 《汉语主题词表》(以下简称《汉表》)的兼容互换,研制并出版了国内最大的分类主题一体化 词表——《中国分类主题词表》(简称《中分表》)。近几年还完成了《中分表》电子版的开发, 并在新版中大幅度地增加了入口词,加快了检索语言的自然语言化。这一切为分类检索语言、 主题检索语言、自然语言三者在标引、检索中的互操作奠定了基础。 (5)网络信息资源的组织是未来信息组织的主要任务。《中图法》适用于网络信息分类组 织的可行性已得到了大多数专家的认同,而其也正在采取分面化、增加自然语言接口、增加超 文本链接等多种措施,以适应网络信息组织的发展需求。 总之,在构建中文文献自动标引和自动分类系统用知识库时,选择国内最为通用的《中图 法》

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档