索引型搜索引擎技术分析.ppt

索引型搜索引擎 目 录 一 索引型搜索引擎的工作方式 二 常用索引型搜索引擎介绍 Google、百度、altavista 一 索引型搜索引擎的工作原理 图5-1 索引型搜索引擎的系统架构图 索引型搜索引擎的具体工作过程 索引型搜索引擎的具体工作过程 1. 搜索器 搜索器包括“蜘蛛控制”和“网络蜘蛛”两部分。“网络蜘蛛”(Spider,Crawlers,Robot),是一种可以查询网页上的超链接的自动搜索机器人程序。网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历Web的目的。 网络蜘蛛的工作策略一般则可以分为两种: ① 累积式抓取。 ② 增量式抓取。 两种抓取策略并不是相互排斥的,实际的网络蜘蛛设计中,通常既包括累积式抓取,也包括增量式抓取的策略。 2. 分析器:和搜集器一起共同完成信息采集工作 ① 新的URL链接的获取。网络蜘蛛一般通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,但当网络蜘蛛分析到网页有新的链接时,就会把新的URL添加到URL列表,以便采集,队列中记录所有将被访问的URL 及访问顺序。网络蜘蛛从队列中抽取一个URL,下载页面,记录该URL所指HTML 文件中所有新的

文档评论(0)

1亿VIP精品文档

相关文档