- 7
- 0
- 约1.09万字
- 约 9页
- 2018-02-19 发布于河南
- 举报
互联网学术资源搜索
互联网学术资源搜索发布者:中国科技论文在线
????????20世纪90年代以来,Internet(互联网络)迅速兴起并且得到普及。它从根本上改变了人类信息的生产、流通、分配和利用模式,为人类创造了最先进快捷的信息传播和交流方式。网络信息资源是指放置在互联网上能满足人们信息需求的信息集合,它具有数据量大,更新快速,无序性和关联度强等特点,这些都为网络环境下的信息检索技术提出了新的要求。????????网络信息检索有三个组成要素,即站点资源、浏览器和具有收集、检索功能的搜索引擎。搜索引擎是以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航目的的网络检索工具。一、搜索引擎的工作原理????????搜索引擎的工作原理可以看作三步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序。1.从互联网上抓取网页????????利用能够从互联网上自动收集网页的Spider(蜘蛛)程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这一过程,并把爬过的所有网页收集回来。搜索引擎的Spider程序一般要定期重新访问所有网页,更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结
原创力文档

文档评论(0)