- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本 科 生 毕 业 论 文
题目: Web资源自动获取技术研究与应用
目 录
1 1
1.1研究的背景与意义 1
1.2 本文研究的内容 2
2 网络爬虫的基本介绍 2
2.1 网络爬虫的概述 2
2.2 网络爬虫的搜索策略 2
2.3 分布式网络爬虫使用的关键技术 3
2.3.1 多线程与线程同步 3
2.3.2 Socket套接字协议 4
3 系统功能需求分析 5
3.1 HTTP/HTTPS 页面下载器 5
3.2 页面链接的提取和URL的过滤 5
3.3 URL管理器 5
3.4 URL 转发器 6
3.5 多线程网络爬虫 6
3.6 服务器端与客户端的通信与协调 6
4 系统的设计与实现过程 7
4.1 开发环境与工具 7
4.2 爬虫中服务器端的设计与实现 7
4.2.1功能流程图和代码段及其界面图 7
4.2.2 URL分发器的实现 10
4.2.3 ID生成器的实现 11
4.3 爬虫客户端的设计与实现 11
4.3.1 功能流程图和代码段及其界面图 11
4.3.2 URL转发器的实现 13
4.3.3 URL接收器及其消重的实现 14
4.3.4 恢复采集断点功能的实现 15
4.4 数据库的设计与连接 16
4.5 系统的运行结果和测试分析 17
4.6 下载网页的查看 20
5 总结 21
参考文献 22
致谢 22
Web资源自动获取技术研究与应用
作者:XXX 指导教师:XXX
摘 要:Web资源自动获取技术是一种自动提取,分析并过滤网页的程序,也叫网络爬虫。本文通过JAVA实现了一个分布式爬虫程序。论文阐述了分布式网络爬虫实现中采用的关键技术:HTTP/HTTPS 页面下载器,页面链接的提取和URL的过滤,URL管理器URL 转发器,多线程网络爬虫,服务器端与客户端的通信与协调。通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。最后创建一个网页读取数据库的下载的URL,列表显示出来并有超链接,点击就可以打开下载的指定网页,并在该页面创建一个检索的功能,方便查找。
关键词:网络爬虫;JAVA;分布式;多线程;URL
Research and application on Web resources automatic
acquisition technology
Author: XXX Tutor:Abstract:Automatic web resource acquisition technology is a program used to automaticly extract , analyse and filter web page ,namely the Web crawler. In this paper ,JAVA is used to implement a distributed crawler program. The paper describes key technologies applied in implementing the distributed Web crawler: HTTP/HTTPS page downloader, extract of page links and filter of URLs, URL manager, URL repeater, multi-thread web crawler, communication and negotiation between server and client. The crawler program could collect a websites URLs, and save those URLs to the database. Finally establish a web page to read URL which stored in database,show them in list and create a hypelink ,through clicking open the pages downloaded ,and create a searching function ,which can conveniently search. .
Key phrase: Web crawler; JAVA; distribute ; multi-threads;URL
1 绪论
1.1研究的背景与意义
随着互联网的飞速发展,网络上的信息呈爆炸式增长。这使得人们在网上找到所需的信息越来越困难,这种情况下搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页,并为每个词建立索引。在建立搜索引擎的过程中
您可能关注的文档
- (论文)太赫兹的简介与应用.doc
- (论文写作)浅议科技期刊中插图的质量控制.pdf
- [小木虫emuch.net]研究如何写论文(清华王守清教授).ppt
- [小木虫emuch.net]英语SCI论文写作常用经典句型.pdf
- 《形势与政策》论文.doc
- 【机械毕业设计 CAD图论文精品】1G-100型水旱两用旋耕机设计.pdf
- 【机械毕业设计 CAD图论文精品】1G-160型旋耕灭茬机总体及侧边传动装置设计.pdf
- 【机械毕业设计 CAD图论文精品】草坪播种机的设计.pdf
- 【机械毕业设计 CAD图论文精品】秸秆切碎机的设计[农业机械].pdf
- 【机械毕业设计 CAD图论文精品】马铃薯播种机设计.pdf
文档评论(0)