关于建立网状结构范畴索引设想.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于建立网状结构范畴索引设想

关于建立网状结构范畴索引设想   摘 要:本文对目前的文献检索和索引状况进行了简要分析,并根据文献的著录形式,提出网状结构的范畴索引体系。该体系对树状结构的主题词索引进行了层次上的细化和深化,更符合人类的知识模型,不仅能够在一定程度上避免关键词搜索带来的漏检和误检问题,提高检索的准确性,而且对在线数据库的内容索引建设也有一定的借鉴意义。   关键词:关键词搜索;主题词索引;网状结构;范畴索引   中图分类号:TN94  文献标识码:A   DOI:10.3969/j.issn.1672-0407.2012.05.029   文章编号:1672-0407(2012)05-052-02   收稿日期:2012-04-01   一、引论   目前国内的绝大多数电子文献目录都是按文献物质形态或学科基本门类编排的,由于分类方式相对简单,每个类别下的文献数量数以千万计,面对如此海量的数据不可能逐条查看并从中选取,因而用户在检索文献时主要采用关键词搜索或主题词索引功能。   关键词搜索具有多检索途径的优点,而且对读者来说具有更强的适应性[1]。但由于同、近义词、上、下位词等语言现象的客观存在,容易发生遗漏或误中。例如某用户想要检索关于“文学与地理关系”的文献,如果他仅使用“文学+地理”作为关键词,检索结果的完整性和准确性将达不到要求。首先,关于“诗歌与地理”“词与地理”“文学与气候”等方面的论文很有可能被遗漏,因为它们使用的是被检索词的下位词,普通的检索程序无法判断它们的关系,这些文献将被排除在检索范围之外;其次,“天文学与地理”“水文学与地理”等与检索目的无关的论文可能也会被命中,掺杂在检索结果中成为冗余。虽然采用预处理技术可以部分解决该问题,但这类语言现象难于穷举。   我国索引学的研究事业从1991年起一直处于快速发展状态,到了2005年以后开始平稳发展,可以认为索引学目前处于大发展与稳定发展的过渡期[2]。前人提出要规范化主题词,并确定一种或二种索引形式作为推广或希望采用的形式[3]。囿于目前自然语言处理技术的发展瓶颈,主题词的选定与核对需要专业人士手工进行,机器只充当辅助角色。而且确定了主题词集合之后还要将文献???一著录,其前期工作与关键词搜索相比显著增加。经整理后,文献的后续利用非常方便,检索时数据漏检和数据误中问题都能得到较好解决。我国现行的主题词索引主要分为汉语拼音字顺型和分类—主题词型两种[4]。   《中国分类主题词表》(第二版)在中图分类法的基础上将主题词排列成树状结构,是一个不错的尝试。但由于人力、时间所限,枝叶未足够细化。该表目前主要被应用于出版社或图书馆的书目管理中,而对海量的论文文献却很少使用。原因有二: 1.在线数据库已经有一个比较成熟的著录模式,一般都是按照学科类别、发表时间、出版社、期刊等进行著录,而《中国分类主题词表》在其领域内又非强制实施,因而缺乏主动向其靠拢的向心力;2.客观地说,该主题词表的编制目的也主要是面向图书管理的,从一开始就就对论文类的文献缺乏足够的考虑,这也使它的使用范围仅限于书目管理。   因此,我们不仅希望主题词索引能在现有的在线数据库中得到应用,而且认为其分类层次应该而且可以得到细化和深化。   二、文献的著录形式   文献著录大体分为以下两种形式:第一种是以文献的物理组织形式为基本参考,可以称为“物理目录”或“载体目录”;第二种是以文献所涉及的内容为基本参考,称之为“内容目录”。   (一)载体目录   在日常生活中,当我们谈及某段文字的出处,通常的表达是“出自某本书的第几页第几行”或“某本书第几章第几节”,如果更具体一点,这里的“某本书”还要细化为“某出版社哪一年出版的哪本书(书名)”或“××杂志哪一年第几期”。对文献的这一类信息进行著录,就是本文提到的载体目录。采用它可以方便地找到某段文字、某篇文章、乃至某本书的物质载体。   (二)内容目录   这是从古到今一直在发展,尚具有长足发展可能的目录,它在一定程度上也代表着人类对自身知识体系的总结。   西汉时刘向、刘歆父子编纂的《七略》是目前所知的最早以文献涉及内容为划分依据的目录。该目录将天下文献分为六艺、诸子、诗赋、兵书、术数、方技等六个类别,为后世的目录编纂工作立了很好的榜样。此后出现的各种史志目录和类书,可以看成是我国目录编纂工作朝着不同方向的发展。前者以书籍作为基本著录单元,而后者以文辞作为基本著录单元。类书中使用的范畴划分方法,甚至可以看成是主题词索引的鼻祖。传统图书馆书目的基本著录单元为书籍和期刊发行本,对书籍内部,尤其是期刊内部分属不同领域和主题的单篇论文缺乏专门的目录整理,目前这部分的工作主要由在线数据库代工。如果要对单篇的论文进行编目工作,一种面向研究内容或研究主题的分类方法势在必行。而且基于维护的便捷

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档