网络爬虫的抓取策略
网络爬虫 1、网络爬虫简介 2、通用网络爬虫和聚焦爬虫 3、网络爬虫的抓取策略 4、几种常见的网络爬虫 5、Metaseeker 1、网络爬虫简介 1.1 定义 1.2 用途 1.3 原理 1.1 网络爬虫定义 网络爬虫(Crawler)又被称为网页蜘蛛,网络机器人,在FOAF社区中,更经常的被称为网页追逐者,它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 1.2 用途 很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。 1.3 原理 一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。 2、通用网络爬虫和聚焦爬虫 2.1 前言 2.2 通用网络爬虫 2.3 聚焦爬虫 2.4 两种爬虫比
您可能关注的文档
最近下载
- 医院财务管理分析.pptx
- 二建机电工程实务-二建《机电工程管理与实务》押题密卷379.docx VIP
- 2022年常州纺织服装职业技术学院单招语文模拟试题及答案解析.docx VIP
- 关于几何基础的假设 - 黎曼.pdf VIP
- 深度解析(2026)《ISO 121002010 Safety of machinery — General principles for design — Risk assessment and risk reduct标准解读.pptx VIP
- GIS特高压演示.ppt VIP
- 2025年山东春考语文真题.docx VIP
- 部编版二年级下册语文词语表+生字表组词.pdf VIP
- IPD集成产品开发.ppt VIP
- pmc-6510说明书(v1.2版).doc VIP
原创力文档

文档评论(0)