探索搜索引擎中蜘蛛对文件的处理方法与更新策略.pdfVIP

  • 2
  • 0
  • 约3.42千字
  • 约 4页
  • 2017-08-27 发布于广东
  • 举报

探索搜索引擎中蜘蛛对文件的处理方法与更新策略.pdf

探索搜索引擎中蜘蛛对文件的处理方法与更新策略 来源:常州强化地板 / 搜索引擎技术可以从海量的网络信息中获得我们想要的信息,随着网络信息 资源的急剧增长其作用越来越显著。本文介绍了搜索引擎技术中的网路蜘蛛,分 析了其对文件的处理方法,研究了其搜索与更新策略。 一 网络蜘蛛工作原理 网络蜘蛛,即搜索引擎机器人程序。将整个互联网想象成一张很大的蜘蛛网, 而搜索引擎机器人程序通过链接来抓取信息的过程就像是蜘蛛在这张网上爬来爬 去一样。网络蜘蛛是通过链接地址来寻找网页的。它由一个启始链接开始抓取网 页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址, 如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或 是数量为依据,有时也会以链接的层数来限制网络蜘蛛的运行。 二 网路蜘蛛与网站的交互问题 网络蜘蛛访问一个网站,通常会去寻找一个特殊的文本文件Robots.txt,这 个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互 用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同 意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和 语法都比较简单,一般网络蜘蛛都可以很容易的理解网站

文档评论(0)

1亿VIP精品文档

相关文档