- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web资源自动获取技术研究与应用论文.doc
本 科 生 毕 业 论 文
题目: Web资源自动获取技术研究与应用
目 录
1 1
1.1研究的背景与意义 1
1.2 本文研究的内容 2
2 网络爬虫的基本介绍 2
2.1 网络爬虫的概述 2
2.2 网络爬虫的搜索策略 2
2.3 分布式网络爬虫使用的关键技术 3
2.3.1 多线程与线程同步 3
2.3.2 Socket套接字协议 4
3 系统功能需求分析 5
3.1 HTTP/HTTPS 页面下载器 5
3.2 页面链接的提取和URL的过滤 5
3.3 URL管理器 5
3.4 URL 转发器 6
3.5 多线程网络爬虫 6
3.6 服务器端与客户端的通信与协调 6
4 系统的设计与实现过程 7
4.1 开发环境与工具 7
4.2 爬虫中服务器端的设计与实现 7
4.2.1功能流程图和代码段及其界面图 7
4.2.2 URL分发器的实现 10
4.2.3 ID生成器的实现 11
4.3 爬虫客户端的设计与实现 11
4.3.1 功能流程图和代码段及其界面图 11
4.3.2 URL转发器的实现 13
4.3.3 URL接收器及其消重的实现 14
4.3.4 恢复采集断点功能的实现 15
4.4 数据库的设计与连接 16
4.5 系统的运行结果和测试分析 17
4.6 下载网页的查看 20
5 总结 21
参考文献 22
致谢 22
Web资源自动获取技术研究与应用
作者:XXX 指导教师:XXX
摘 要:Web资源自动获取技术是一种自动提取,分析并过滤网页的程序,也叫网络爬虫。本文通过JAVA实现了一个分布式爬虫程序。论文阐述了分布式网络爬虫实现中采用的关键技术:HTTP/HTTPS 页面下载器,页面链接的提取和URL的过滤,URL管理器URL 转发器,多线程网络爬虫,服务器端与客户端的通信与协调。通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。最后创建一个网页读取数据库的下载的URL,列表显示出来并有超链接,点击就可以打开下载的指定网页,并在该页面创建一个检索的功能,方便查找。
关键词:网络爬虫;JAVA;分布式;多线程;URL
Research and application on Web resources automatic
acquisition technology
Author: XXX Tutor:Abstract:Automatic web resource acquisition technology is a program used to automaticly extract , analyse and filter web page ,namely the Web crawler. In this paper ,JAVA is used to implement a distributed crawler program. The paper describes key technologies applied in implementing the distributed Web crawler: HTTP/HTTPS page downloader, extract of page links and filter of URLs, URL manager, URL repeater, multi-thread web crawler, communication and negotiation between server and client. The crawler program could collect a websites URLs, and save those URLs to the database. Finally establish a web page to read URL which stored in database,show them in list and create a hypelink ,through clicking open the pages downloaded ,and create a searching function ,which can conveniently search. .
Key phrase: Web crawler; JAVA; distribute ; multi-threads;URL
1 绪论
1.1研究的背景与意义
随着互联网的飞速发展,网络上的信息呈爆炸式增长。这使得人们在网上找到所需的信息越来越困难,这种情况下搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页,并为每个词建立索引。在建立搜索引擎的过程中
您可能关注的文档
最近下载
- 静疗标准解读课件.pptx VIP
- 集装箱检验指南IICL-6(中文版).pdf VIP
- 火力发电厂制粉系统设计计算技术规定.pdf VIP
- (完整版)小学生必背古诗300首 .pdf VIP
- 物业承接查验标准-附全套表格)(-65页).pdf VIP
- 急诊常见首发症状的鉴别与诊疗思路题库答案-2025年华医网继续教育.docx VIP
- 松下nv-f55维修手册英文全本.pdf
- 第11课 以社会主义核心价值观引领文化建设【2023年秋最新版】.pptx VIP
- 华医继续教育常见消化系统急症的急诊评估与处置题库答案.docx VIP
- 第10课 文化自信与文明交流互鉴【2023年秋最新版】.pptx VIP
原创力文档


文档评论(0)