网络爬虫的抓取策略.PPT

网络爬虫的抓取策略

网络爬虫 1、网络爬虫简介 2、通用网络爬虫和聚焦爬虫 3、网络爬虫的抓取策略 4、几种常见的网络爬虫 5、Metaseeker 1、网络爬虫简介 1.1 定义 1.2 用途 1.3 原理 1.1 网络爬虫定义 网络爬虫(Crawler)又被称为网页蜘蛛,网络机器人,在FOAF社区中,更经常的被称为网页追逐者,它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 1.2 用途 很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。 1.3 原理 一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。 2、通用网络爬虫和聚焦爬虫 2.1 前言 2.2 通用网络爬虫 2.3 聚焦爬虫 2.4 两种爬虫比

文档评论(0)

1亿VIP精品文档

相关文档