- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业论文(设计)网络爬虫的设计与实现[精品]
毕业论文(设计)网络爬虫的设计与实现
摘要
网络爬虫是一种自动搜集互联网信息的程序通过网络爬虫不仅能够为搜索引擎采集网络信息而且可以作为定向信息采集器定向采集某些网站下的特定信息如招聘信息租房信息等
本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序本论文阐述了网络爬虫实现中一些主要问题为何使用广度优先的爬行策略以及如何实现广度优先爬行为何要使用多线程以及如何实现多线程系统实现过程中的数据存储网页信息解析等
通过实现这一爬虫程序可以搜集某一站点的URLs并将搜集到的URLs存入数据库
关键字网络爬虫JAVA广度优先多线程
ABSTRACT
SPIDER is a program which can auto collect informations from internet SPIDER can collect data for search engines also can be a Directional information collector collects specifically informations from some web sites such as HR informations house rent informations
In this paper use JAVA implements a breadth-first algorithm multi-thread SPDIER This paper expatiates some major problems of SPIDER why to use breadth-first crawling strategy and how to implement breadth-first crawling why to use multi-threading and how to implement multi-thread data structure 6HTML code parse etc This SPIDER can collect URLs from one web site and store URLs into database
KEY WORDSPIDER JAVA Breadth First Search multi-threads第一章 引言 1
第二章 相关技术介绍 2
21 JAVA线程 2
com 线程概述 2
com JAVA线程模型 2
com 创建线程 3
com JAVA中的线程的生命周期 4
com JAVA线程的结束方式 4
com 多线程同步 5
22 URL消重 5
com URL消重的意义 5
com 网络爬虫URL去重储存库设计 5
com LRU算法实现URL消重 7
23 URL类访问网络 8
24 爬行策略浅析 8
com深度优先搜索策略 8
com 聚焦搜索策略 9
com容评价的搜索策略 9
com 基于链接结构评价的搜索策略 10
com 基于巩固学习的聚焦搜索 11
com 基于语境图的聚焦搜索 11
第三章 系统需求分析及模块设计 13
31 系统需求分析 13
32 SPIDER体系结构 13
33 各主要功能模块类设计 14
34 SPIDER工作过程 14
第四章 系统分析与设计 16
41 SPIDER构造分析 16
42 爬行策略分析 17
43 URL抽取解析和保存 18
com URL抽取 18
com URL解析 19
com URL保存 19
第五章 系统实现 21
51 实现工具 21
52 爬虫工作 21
53 URL解析 22
54 URL队列管理 24
com URL消重处理 24
com URL等待队列维护 26
com 数据库设计 27
第六章 系统测试 29
第七章 结论 32
参考文献 33
致谢 34
外文资料原文 35
译文 51
第一章 引言
随着互联网的飞速发展网络上的信息呈爆炸式增长这使得人们在网上找到所需的信息越来越困难这种情况下搜索引擎应运而生搜索引擎搜集互联网上数以亿计的网页并为每个词建立索引在建立搜索引擎的过程中搜集网页是非常重要的一个环节爬虫程序就是用来搜集网页的程序以何种策略偏历互联网上的网页也成了爬虫程序主要的研究方向现在比较流行的搜索引擎比如google百度它们爬虫程序的技术内幕一般都不公开目前几种比较常用的爬虫实现策略广度优先的爬虫程序Repetitive爬虫程序定义爬行爬虫程序深层次爬行爬虫程序此外 还有根据概率论进行可用Web页的数量估算 用于评估互联网Web规模的抽样爬虫程序 采用爬行深度页面导入链接量分析等方法 限制从程序下
您可能关注的文档
- 武汉市、酒店项目市场及财务可行分析报告20101018。[精品].docx
- 武汉市、酒店项目市场及财务可行分析报告.2010.10.18。DOCX[精品].doc
- 武汉越江隧道下穿江南明珠园施工方案[精品].doc
- 武汉乙烯项目考察报告[精品].doc
- 步进电机控制器设计与实现[精品].doc
- 武警部队三严三实心得体会精选范文两篇[精品].doc
- 武汉市酒店项目市场及财务可行分析报告.2010.10.18。x[精品].docx
- 残疾人托养中心可行性研究报告[精品].doc
- 武汉商业概况楚河汉街(中央文化街)商业街案例分析[精品].ppt
- 残疾人托养中心建设项目立项申请建议书[精品].doc
- 毕业论文(设计)合页铰链冲压工艺分析及模具设计[精品].doc
- 毕业论文题目:基于单片机的通用智能测控系统--下位机部分[精品].doc
- 毕业论文(设计)基于51单片机的自行车测速系统设计[精品].doc
- 毕业论文(设计):基于单片机无土栽培智能测控系统的设计[精品].doc
- 毕业论文:CDMA通信系统研究与仿真[精品].doc
- 毕业论文:ERP在我国中小企业管理中的应用研究[精品].doc
- 毕业论文:PLC控制系统的设计与实现[精品].doc
- 毕业论文:LABVIEW智能小车毕业设计[精品].doc
- 毕业论文(设计)基于web的背单词软件的设计与实现[精品].doc
- 毕业论文:会计信息失真的经济学思考[精品].doc
文档评论(0)