主题网关与搜索引擎的比较分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主题网关与搜索引擎的比较分析.pdf

第25卷第6期 佛山科学技术学院学报(自然科学版) Vo1.25 No.6 2007年11月 Journal of Foshan University(Natural Science Edition) NOV.2007 文章编号:1008—0171(2007)06—0014-03 主题网关与搜索引擎的比较分析 潘卫东,衡中青 (佛山科学技术学院 图书馆,广东佛山528000) 摘要:本文阐述了搜索引擎和主题网着的工作原理,并对这两种搜索方式进行了比较分析。 关键词;主题网关;搜索引擎;信息组织系统 中图分类号:TP393 文献标识码:A 网络的出现让世界变成了真正意义的“地球村”,使得人们的生活、工作和学习变得方便和快捷起来。 然而,随着网络资源的飞速增长,一方面人们在海量的信息资源面前无所适从;而另一方面,纷繁芜杂和无 序的信息和无太多益处的。而且无处不在的网络病毒使得我们对于不少陌生网址望而却步。 海量的信息资源和“噪音”增加,导致检全率检准率正在下降;专供学术研究的资源越来越分散,几乎 淹没在“信息海洋”中。为了能够迅速、准确地在互联网上找到所需信息资源,上世纪8O年代兴盛的搜索引 擎,谋求相应的解决问题的办法。然而,人们在感叹搜索引擎为我们查找到大量网络信息的同时,很快地就 发现这一工具存在着很多问题。搜索引擎作为一种网上资源发现工具,在某种程度上,可以解决部分信息 检索问题,但是搜索引擎面对的使用对象、索引范围、检索机制和检索结果的排序方法对那些需要特定信 息的人们来说,仍然是无助的。为了学术研究能够“一站式”查询学术专题信息,上世纪9O年代及本世纪初 便兴起了主题网关服务。搜索引擎和主题网关为准确、全面地检索信息资源可谓立下了“汗马功劳”。可是, 这两种搜索技术是怎么工作的,他们之间的区别又在哪里? 1 搜索引擎的工作原理 搜索引擎是使用某些软件程序以一定的策略把互联网上的信息归类或者人为地把某些数据归入某个 类别,形成一个可供查询的大型数据库,使用搜索引擎能够帮助人们从不同形式的数字化信息中进行搜 集,并对发现的信息进行理解、提取、组织和处理,快速找到人们所需的信息,从而起到信息导航的作用。通 常,搜索引擎包括三个关键技术,即Robot获取页面技术、对页面进行排序的索引技术和页面的搜索技 术 。 。 (1)Robot技术 Robot是一个可浏览网页的程序,工作时,Robot把开始确定的一组网页链接作为浏 览的起始地址,然后将网页抓取过来,抽取页面中的链接,并通过一定算法决定下一步要访问的链接。同 时,Robot将已经访问的页面存储到自己的页面数据库里。之后,再重复这个过程,直至结束。 (2)索引技术当Robot访问完网页并将其内容和地址存入网页数据库后,就要对其建立索引。索引过 程是,通过分析获取的网页,排除HTMI 等语言的标志符号,将出现的所有字或词抽取出来,记录每个字 词出现的网址及相应位置,最后将结果存入索引数据库。索引数据库是一个很大的查询表,记录了某个特 定词在互联网上出现的位置信息。 收稿日期:2007—09—10 作者简介:潘卫东(1974一),男,广东兴宁人,佛山科学技术学院馆员。 第6期 潘卫东等:主题网关与搜索引擎的比较分析 15 (3)搜索技术 搜索时,首先分析用户检索时给出的提问式,再访问搜索引擎已经建立的索引,并通过 一 定的匹配算法,获取相应的搜索结果。这个搜索结果一般是经过排序的,常按重要程度进行排序,然后才 返回给用户。 搜索引擎起源于传统的信息全文检索理论,它由Robot程序爬行、获取网页,由索引模块进行排序,建 立索引数据库,由搜索模块为用户提供检索,基本上由计算机程序自动完成。但是,搜索结果检全率、检准 率都低,对于一些Robot无法爬行到的网页,则永远成为“死链”。既然机器不能提供用户“十分满意”的结 果,那么能否通过人工的有意参与和“干扰”达到“十分满意”的搜索效果呢?下文阐述主题网关的原理。 2 主题网关的原理 2.1 主题网关的概念及特征_4 主题网关作为一个名词术语最初是在英国的电子图书馆计划(the Electronic I i

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档