网络蜘蛛概述.pptVIP

下载本文档

4
0
约4.61千字
约 23页
2017-08-13 发布于上海
举报

网络蜘蛛概述.ppt

网络蜘蛛概述

网络爬虫学号：2110230207 姓名：史景利 - * - 目录网络爬虫概述爬虫技术研究综述网页搜索策略网页分析算法 - * - 一、定义及组成网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。 - * - 一、定义及组成在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。 - * - 一、定义及组成控制器　控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。解析器解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。资源库　主要是用来存储网页中下载下来的数据记录

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

网络蜘蛛概述.pptVIP