Web资源自动获取技术研究与应用论文.docVIP

下载本文档

2
0
约1.67万字
约 25页
2015-09-05 发布于重庆
举报
版权申诉

Web资源自动获取技术研究与应用论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web资源自动获取技术研究与应用论文.doc

本科生毕业论文题目： Web资源自动获取技术研究与应用目录 1 1 1.1研究的背景与意义 1 1.2 本文研究的内容 2 2 网络爬虫的基本介绍 2 2.1 网络爬虫的概述 2 2.2 网络爬虫的搜索策略 2 2.3 分布式网络爬虫使用的关键技术 3 2.3.1 多线程与线程同步 3 2.3.2 Socket套接字协议 4 3 系统功能需求分析 5 3.1 HTTP/HTTPS 页面下载器 5 3.2 页面链接的提取和URL的过滤 5 3.3 URL管理器 5 3.4 URL 转发器 6 3.5 多线程网络爬虫 6 3.6 服务器端与客户端的通信与协调 6 4 系统的设计与实现过程 7 4.1 开发环境与工具 7 4.2 爬虫中服务器端的设计与实现 7 4.2.1功能流程图和代码段及其界面图 7 4.2.2 URL分发器的实现 10 4.2.3 ID生成器的实现 11 4.3 爬虫客户端的设计与实现 11 4.3.1 功能流程图和代码段及其界面图 11 4.3.2 URL转发器的实现 13 4.3.3 URL接收器及其消重的实现 14 4.3.4 恢复采集断点功能的实现 15 4.4 数据库的设计与连接 16 4.5 系统的运行结果和测试分析 17 4.6 下载网页的查看 20 5 总结 21 参考文献 22 致谢 22 Web资源自动获取技术研究与应用作者：XXX 指导教师：XXX 摘要：Web资源自动获取技术是一种自动提取，分析并过滤网页的程序，也叫网络爬虫。本文通过JAVA实现了一个分布式爬虫程序。论文阐述了分布式网络爬虫实现中采用的关键技术：HTTP/HTTPS 页面下载器，页面链接的提取和URL的过滤，URL管理器URL 转发器，多线程网络爬虫，服务器端与客户端的通信与协调。通过实现这一爬虫程序，可以搜集某一站点的URLs，并将搜集到的URLs存入数据库。最后创建一个网页读取数据库的下载的URL，列表显示出来并有超链接，点击就可以打开下载的指定网页,并在该页面创建一个检索的功能，方便查找。关键词：网络爬虫；JAVA；分布式；多线程；URL Research and application on Web resources automatic acquisition technology Author: XXX Tutor：Abstract：Automatic web resource acquisition technology is a program used to automaticly extract , analyse and filter web page ,namely the Web crawler. In this paper ,JAVA is used to implement a distributed crawler program. The paper describes key technologies applied in implementing the distributed Web crawler: HTTP/HTTPS page downloader, extract of page links and filter of URLs, URL manager, URL repeater, multi-thread web crawler, communication and negotiation between server and client. The crawler program could collect a websites URLs, and save those URLs to the database. Finally establish a web page to read URL which stored in database,show them in list and create a hypelink ,through clicking open the pages downloaded ,and create a searching function ,which can conveniently search. . Key phrase: Web crawler; JAVA; distribute ; multi-threads;URL 1 绪论 1.1研究的背景与意义随着互联网的飞速发展，网络上的信息呈爆炸式增长。这使得人们在网上找到所需的信息越来越困难，这种情况下搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页，并为每个词建立索引。在建立搜索引擎的过程中