- 21
- 0
- 约6.2万字
- 约 63页
- 2022-06-23 发布于安徽
- 举报
PAGE / NUMPAGES
摘要
摘要
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜
索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些下的
特定信息,如招聘信息,租房信息等。
本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文
阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如
何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过
程中的数据存储;网页信息解析等。
通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs
存入数据库。
【关键字】网络爬虫;JAVA;广度优先;多线程。
Ⅰ
ABSTRACT
ABSTRACT
SPIDERisaprogramwhichcanautocollectinformationsfrominternet.SPIDER
cancollectdataforsearchengines,alsocanbeaDirectionalinformationcollector,
collectsspecificallyinformationsfromsomewebsites,suchasHRinformations,
houserentinformations.
Inthispaper,useJAVAimplementsabreadth-firstalgorithmmulti-thread
SPDIER.ThispaperexpatiatessomemajorproblemsofSPIDER:whytouse
breadth-firstcrawlingstrategy,andhowtoimplementbreadth-firstcrawling;whyto
usemulti-threading,andhowtoimplementmulti-thread;datastructure;HTMLcode
parse.etc.
ThisSPIDERcancollectURLsfromonewebsite,andstoreURLsinto
database.
【KEYWORD】SPIDER;JAVA;BreadthFirstSearch;multi-threads.
II
目录
第一章引言1
第二章相关技术介绍2
2.1JAVA线程2
2.1.1线程概述2
2.1.2JAVA线程模型2 2.1.3创建线程3
2.1.4JAVA中的线程的生命周期4 2.1.5JAVA线程的结束方式4 2.1.6多线程同步5
2.2URL消重5
2.2.1URL消重的意义5 2.2.2网络爬虫URL去重储存库设计5
2.2.3LRU算法实现URL消重7
2.3URL类访问网络8
2.4爬行策略浅析8
2.4.1宽度或深度优先搜索策略8
2.4.2聚焦搜索策略9
2.4.3基于内容评价的搜索策略9
2.4.4基于结构评价的搜索策略10
2.4.5基于巩固学习的聚焦搜索11
2.4.6基于语境图的聚焦搜索11
第三章系统需求分析及模块设计13
3.1系统需求分析13
3.2SPIDER体系结构13
3.3各主要功能模块(类)设计14
3.4SPIDER工作过程14
第四章系统分析与设计16
4.1SPIDER构造分析16
4.2爬行策略分析17
4.3URL抽取,解析和保存18
4.3.1URL抽取18
4.3.2URL解析19
4.3.3URL保存19
第五章系统实现21
5.1实现工具21 5.2爬虫工作21
5.3URL解析22 5.4URL队列管理24
5.4.1URL消重处理24
5.4.2URL等待队列维护26
5.4.3数据库设计27
第六章系统测试29
第七章结论32
参考文献33
致谢34
外文资料原文35
译文50
第一章引言
第一章引言
随着互联网的飞速发展,网络上的信息呈爆炸式增长。这使得人们在网上
找到所需的信息越来越困难,这种情况下搜索引擎应运而生。搜索引擎搜集互
联网上数以亿计的网页,并为每个词建立索引。在建立搜索引擎的过程中,搜
集网页是非常重要的一个环节。爬虫程序就是用来搜集网页的程序。以何种策
略偏历互联网上的网页,也成了爬虫程序主要的研究方向。现在比较流行的搜
索引擎,比如google,百度,它们爬虫程序的技术内幕一般都不公开。目前几
种比较常用的爬虫实现策略:广度优先的爬虫程序,Repetitive爬虫程序,定义
爬行爬虫程序,深层次爬行爬虫程序。此外,还有根据概率论进行可用Web页
的数量估算,用于评估互联网Web规模的抽样爬虫程序;采用爬行深度、页面
导入量分析等方法,限制从程序下载不相关的Web页的选择性爬行程序等
等。
爬虫程序是一个自动获取网页的程序。它为搜索引擎从互联网上下载网页,
是搜索
您可能关注的文档
- 初中英语书单词汇总(初中全部).docx
- 基于bandgap版图设计毕业论文.docx
- 新人教版一年级数学下册各单元知识点.docx
- 译林版五年级英语(下册)(全册)教案.docx
- S9~11变压器参数标准.docx
- 2014年普通高等学校招生全国统一考试英语(新课标Ⅰ卷)word版含答案、解析.docx
- 毕业论文--网上书店系统地设计与实现.docx
- 盘扣式(承插式)高支模施工方案.docx
- 道路工程毕业设计模板.docx
- 团支部工作手册填写模板.docx
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 附录B规范性附录AGC性能指标计算及补偿-中国电力企业联合会.DOC
- 山东省烟台市蓬莱区2022-2023学年六年级上学期期末数学试题(五四学制) (含答案解析).docx VIP
- YQ-15-烟用材料许可使用物质名 单系列标准.pdf VIP
- 2019-2020学年四川成都锦江区五年级上册语文期末试卷及答案.pdf
- 基于ABAQUS的动力总成悬置支架仿真分析方法研究.docx VIP
- 【三套试卷】【浙教版】小学三年级数学上册第一单元教材检测题附答案.pdf VIP
- EMT会议管理制度.docx VIP
- 十年(2016-2025)高考物理真题分类汇编(全国通用)-专题23 法拉第电磁感应定律.docx VIP
- 渠道维护工高级技师考试答案(强化练习).docx VIP
- 动量和能量中的滑板块模型专题.docx VIP
原创力文档

文档评论(0)