网络蜘蛛概述.pptVIP

  • 4
  • 0
  • 约4.61千字
  • 约 23页
  • 2017-08-13 发布于上海
  • 举报
网络蜘蛛概述

网络爬虫 学号:2110230207 姓名:史景利 - * - 目录 网络爬虫概述 爬虫技术研究综述 网页搜索策略 网页分析算法 - * - 一、定义及组成 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 - * - 一、定义及组成 在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。 - * - 一、定义及组成 控制器   控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。 解析器 解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。 资源库  主要是用来存储网页中下载下来的数据记录

文档评论(0)

1亿VIP精品文档

相关文档