- 4
- 0
- 约4.61千字
- 约 23页
- 2017-08-13 发布于上海
- 举报
网络蜘蛛概述
网络爬虫 学号:2110230207 姓名:史景利 - * - 目录 网络爬虫概述 爬虫技术研究综述 网页搜索策略 网页分析算法 - * - 一、定义及组成 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 - * - 一、定义及组成 在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。 - * - 一、定义及组成 控制器 控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。 解析器 解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。 资源库 主要是用来存储网页中下载下来的数据记录
您可能关注的文档
- 线代3-1---工程数学.ppt
- 线代3-2---工程数学.ppt
- 线代4-1---工程数学.ppt
- 线代2-1---工程数学.ppt
- 线 粒 体 遗 传 病-2011qiu.ppt
- 纸杯蛋糕展示派发SHOW执行方案.ppt
- 线代1-2--工程数学.ppt
- 线代4-4---工程数学.ppt
- 线头影测量分析方法.ppt
- 线代1-3--工程数学.ppt
- [分班考小升初] 2026年江西省九江市部分校数学仿真模拟试卷 [有答案].docx
- 2026年南宁市西乡塘区财政系统人员招聘考试模拟试题及答案解析.docx
- 2026年阜新市新邱区财政系统人员招聘笔试备考试题及答案解析.docx
- 2026年山西省长治市财政系统人员招聘笔试模拟试题及答案解析.docx
- 农桥施工组织设计.docx
- 教师诚实守信道德模范事迹材料.docx
- 小儿静脉留置针穿刺技巧.pptx
- 2026年大兴安岭地区财政系统人员招聘考试参考试题及答案解析.docx
- 2026年株洲市荷塘区财政系统人员招聘考试模拟试题及答案解析.docx
- [分班考小升初] 2026年辽宁省丹东市东港市数学仿真模拟试卷 [有答案].docx
原创力文档

文档评论(0)