- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字图书馆检索工具探析_图书情报
[真诚为您服务]
汤莉华,中国人民大学图书馆硕士研究生。研究方向:数字图书馆资源建设。【内容提要】基于数字图书馆建设现状,提出引进搜索引擎技术,建立数字图书馆检索工具,探讨检索工具的功能及工作原理。【摘 要 题】图书情报工作论坛【关 键 词】数字图书馆/检索工具/搜索引擎/网络信息资源【 正 文】 1 关于数字图书馆的设想 1.1 国内数字图书馆的建设现状 目前,关于数字图书馆还没有一个被公认的定义,从现实建设工作来看,其形式也是多种多样,有时它是一项国家数字资源系统工程(比如中国数字图书馆工程),有时它更像是一个网上书店(如超星数字图书馆、书生之家数字图书馆),而有时它更接近于传统图书馆的数字化、网络化(如上海数字图书馆等)。近几年,我国图书馆的数字化工作和数字图书馆的建设进行得如火如荼,的确取得了很大的成就,极大地丰富了中文网络信息资源,尤其是学术信息资源,为用户查询和利用信息资源提供了方便。 然而,无论是工程浩大的中国数字图书馆[1]、 上海数字图书馆[2]、还是清华大学建筑数字图书馆[3]等等,都仅仅忙于将馆藏信息资源数字化、网络化,而忽视了对信息量巨大的网络信息资源的组织。 我们处在一个信息爆炸的时代,因特网信息资源以几何级数的速度增长,导致几个问题的出现:(1)信息过多,用户难于寻找所需信息。带着一定需求的用户在因特网这个信息的海洋中常常迷失方向;(2)信息更新速度快,具较强的实时性,使人工标引难以跟上信息的增长;(3)信息类型多样,除文本信息,还有图像、音频、视频等信息, 给在传统文献信息资源组织方面经验丰富的图书馆编目员提出了新的课题。 很多高校图书馆和公共图书馆意识到网络信息资源的重要性,在图书馆门户网站的首页中设立“网络导航”或“搜索引擎导航”栏目,提供国内外著名搜索引擎门户网站(如Yahoo、Excit、Altervista、google、百度、天网等)的链接以及学科网络资源导航,对用户查询网络资源起到了引导作用,而不是利用数字图书馆自身的资源为用户提供服务全面的服务,可以说这还不是真正的数字图书馆。 1.2 我的数字图书馆理念 到底怎样的数字图书馆才是真正意义上的数字图书馆?从根本上来说,数字图书馆是为了解决网络环境下数字化信息的组织、查询与服务问题[4]。笔者认为判断数字图书馆必须具备这样三个指标: 第一,数字图书馆具有丰富的数字化资源,包括OPAC书刊目录库、全文数据库、多媒体数据库、网络数据库、网络信息资源库等等。 第二,数字图书馆能够向用户提供多种类型的信息资源的检索,如书目信息、书刊全文,各种音频、视频信息,还可提供网络信息资源检索服务,如因特网上Web、FTP、Gopher、Wais、Usenet等信息资源。 第三,数字图书馆将所有信息资源进行整合,实现跨库检索,向用户提供统一的检索界面,检索各种类型的信息。检索到的相关信息在统一的界面中显示。 参照以上三个指标,发现目前国内建设数字图书馆已经具备的一定的资源和技术基础,比如OPAC书刊目录库的标准化已经实现,自建和购买的全文数据库资源在高校图书馆已经十分丰富,以上海数字图书馆为代表的图书馆在多媒体信息资源建库和检索方面成就显著,而且信息资源的整合和跨库检索在技术上已经不成问题,目前亟待解决的问题是加强和完善对网络资源的组织和管理。 然而,如果采用图书馆贯用的人工标引的方式,面对浩如烟海的网络信息资源,别说对所有的网络信息进行标引,就是能达到0.01%的标引率也几乎是不可能的。因此,数字图书馆必须采用新的策略和方式对网络信息资源进行标引,向提供信息检索服务。 1.3 设想的提出 以上提出的问题是:建设真正的数字图书馆必须实现对网络信息资源的全面搜集、合理组织和有效利用,但传统的人工标引方法面对浩繁的网络资源只能“望洋兴叹”,如何解决此矛盾?以笔者之见,在建设数字图书馆的过程中应引进搜索引擎技术,对网络信息资源采用自动标引和人工标引相结合的方式。 1.3.1 搜索引擎原理 搜索引擎是因特网上最重要的应用之一,它能够在浩如烟海的因特网信息中找到用户所需的信息,因此深得广大用户的喜爱。搜索引擎的工作原理是:利用Robot、Spider、WebCrawler等搜索软件, 即能够从因特网上自动收集网页的数据收集系统,将收集所得的网页内容交给索引和检索系统,索引和检索系统通过扫描每一个网页中的每一个词,建立以词为单位的倒排文档,再根据关键词在每一个网页中出现的频率对包含这些关键词的网页进行排序,最后输出排序结果。页面生成系统再将结果高效地组装成因特网页面。我们就可以通过浏览器看到检索结果了[5]。 在国
文档评论(0)