- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫的设计与实现 毕业论文精选
摘要
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。
本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。
通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。
【关键字】网络爬虫;JAVA;广度优先;多线程。
ABSTRACT
SPIDER is a program which can auto collect informations from internet. SPIDER can collect data for search engines, also can be a Directional information collector, collects specifically informations from some web sites, such as HR informations, house rent informations.
In this paper, use JAVA implements a breadth-first algorithm multi-thread SPDIER. This paper expatiates some major problems of SPIDER: why to use breadth-first crawling strategy, and how to implement breadth-first crawling; why to use multi-threading, and how to implement multi-thread; data structure; HTML code parse. etc. This SPIDER can collect URLs from one web site, and store URLs into database.
【KEY WORD】SPIDER; JAVA; Breadth First Search; multi-threads.第一章 引言 1
第二章 相关技术介绍 2
2.1 JAVA线程 2
2.1.1 线程概述 2
2.1.2 JAVA线程模型 2
2.1.3 创建线程 3
2.1.4 JAVA中的线程的生命周期 4
2.1.5 JAVA线程的结束方式 4
2.1.6 多线程同步 5
2.2 URL消重 5
2.2.1 URL消重的意义 5
2.2.2 网络爬虫URL去重储存库设计 5
2.2.3 LRU算法实现URL消重 7
2.3 URL类访问网络 8
2.4 爬行策略浅析 8
2.4.1宽度或深度优先搜索策略 8
2.4.2 聚焦搜索策略 9
2.4.3基于内容评价的搜索策略 9
2.4.4 基于链接结构评价的搜索策略 10
2.4.5 基于巩固学习的聚焦搜索 11
2.4.6 基于语境图的聚焦搜索 11
第三章 系统需求分析及模块设计 13
3.1 系统需求分析 13
3.2 SPIDER体系结构 13
3.3 各主要功能模块(类)设计 14
3.4 SPIDER工作过程 14
第四章 系统分析与设计 16
4.1 SPIDER构造分析 16
4.2 爬行策略分析 17
4.3 URL抽取,解析和保存 18
4.3.1 URL抽取 18
4.3.2 URL解析 19
4.3.3 URL保存 19
第五章 系统实现 21
5.1 实现工具 21
5.2 爬虫工作 21
5.3 URL解析 22
5.4 URL队列管理 24
5.4.1 URL消重处理 24
5.4.2 URL等待队列维护 26
5.4.3 数据库设计 27
第六章 系统测试 29
第七章 结论 32
参考文献 33
致谢 34
外文资料原文 35
译文 51
第一章 引言
随着互联网的飞速发展,网络上的信息呈爆炸式增长。这使得人们在网上找到所需的信息越来越困难,这种情况下搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页,并为每个词建立索引。在建立搜索引擎的过程中,搜集网页是非常重要的一个环节。爬虫程序就是用来搜集网页的程序。以何种策略偏历互联网上的网页,也成了爬虫程序主要的研究方向。现在比较流行的搜索引擎,比如google,百度,它们爬虫程序的技术内幕一般都不公开。目前几种比较常用的爬虫实现策略:广度优先的爬虫程序,Repetitive爬虫程序,
您可能关注的文档
最近下载
- 2024年秋人教版七年级英语上册全册课件:Unit 5.pptx VIP
- HIOKI日置 RM3545电阻计使用说明书.pdf
- 洛阳市20 15届高三一练理科a卷成绩yiqi.xls
- 2024年秋人教版七年级英语上册全册课件:Unit 4.pptx VIP
- 2024全国中考语文试题分类汇编:记叙文阅读.pdf VIP
- 2024新人教版初中七年级数学上册第六章几何图形初步大单元整体教学设计.docx
- 【美术课件】《水果皇后—山竹》(1).pptx
- Unit 1 You and Me (第1课时) Section A 1a-1d 课件 人教版(2024)七年级上册.pptx
- Unit 1 You and Me Section A How do you greet people 课件 人教版(2024)英语七年级上册.ppt
- 机械结算单模板.docx
文档评论(0)