Web资源自动获取技术研究与应用--论文.doc

Web资源自动获取技术研究与应用--论文.doc

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本 科 生 毕 业 论 文 题目: Web资源自动获取技术研究与应用 目 录 1 1 1.1研究的背景与意义 1 1.2 本文研究的内容 2 2 网络爬虫的基本介绍 2 2.1 网络爬虫的概述 2 2.2 网络爬虫的搜索策略 2 2.3 分布式网络爬虫使用的关键技术 3 2.3.1 多线程与线程同步 3 2.3.2 Socket套接字协议 4 3 系统功能需求分析 5 3.1 HTTP/HTTPS 页面下载器 5 3.2 页面链接的提取和URL的过滤 5 3.3 URL管理器 5 3.4 URL 转发器 6 3.5 多线程网络爬虫 6 3.6 服务器端与客户端的通信与协调 6 4 系统的设计与实现过程 7 4.1 开发环境与工具 7 4.2 爬虫中服务器端的设计与实现 7 4.2.1功能流程图和代码段及其界面图 7 4.2.2 URL分发器的实现 10 4.2.3 ID生成器的实现 11 4.3 爬虫客户端的设计与实现 11 4.3.1 功能流程图和代码段及其界面图 11 4.3.2 URL转发器的实现 13 4.3.3 URL接收器及其消重的实现 14 4.3.4 恢复采集断点功能的实现 15 4.4 数据库的设计与连接 16 4.5 系统的运行结果和测试分析 17 4.6 下载网页的查看 20 5 总结 21 参考文献 22 致谢 22 Web资源自动获取技术研究与应用 作者:XXX 指导教师:XXX 摘 要:Web资源自动获取技术是一种自动提取,分析并过滤网页的程序,也叫网络爬虫。本文通过JAVA实现了一个分布式爬虫程序。论文阐述了分布式网络爬虫实现中采用的关键技术:HTTP/HTTPS 页面下载器,页面链接的提取和URL的过滤,URL管理器URL 转发器,多线程网络爬虫,服务器端与客户端的通信与协调。通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。最后创建一个网页读取数据库的下载的URL,列表显示出来并有超链接,点击就可以打开下载的指定网页,并在该页面创建一个检索的功能,方便查找。 关键词:网络爬虫;JAVA;分布式;多线程;URL Research and application on Web resources automatic acquisition technology Author: XXX Tutor:Abstract:Automatic web resource acquisition technology is a program used to automaticly extract , analyse and filter web page ,namely the Web crawler. In this paper ,JAVA is used to implement a distributed crawler program. The paper describes key technologies applied in implementing the distributed Web crawler: HTTP/HTTPS page downloader, extract of page links and filter of URLs, URL manager, URL repeater, multi-thread web crawler, communication and negotiation between server and client. The crawler program could collect a websites URLs, and save those URLs to the database. Finally establish a web page to read URL which stored in database,show them in list and create a hypelink ,through clicking open the pages downloaded ,and create a searching function ,which can conveniently search. . Key phrase: Web crawler; JAVA; distribute ; multi-threads;URL 1 绪论 1.1研究的背景与意义 随着互联网的飞速发展,网络上的信息呈爆炸式增长。这使得人们在网上找到所需的信息越来越困难,这种情况下搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页,并为每个词建立索引。在建立搜索引擎的过程中

文档评论(0)

godaddy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档