基于java网络蜘蛛程序论文.doc

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于java网络蜘蛛程序论文

毕 业 论 文 论文题目: 基于java网络蜘蛛程序 学生姓名: 学生学号: 专业班级: 学院名称: 指导老师: 学院院长: 年 6月5日 毕业论文原创性声明 本人郑重声明:所呈交的是本人在的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 签名: 日期:200年月 日 版权使用授权书 本论文作者完全了解学校有关保留、使用的规定,同意学校保留并向国家有关部门或机构送交的复印件和电子版,允许被查阅和借阅。本人授权湖南大学可以将本的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本。 本论文属于 1、保密,在年解密后适用本授权书。 2、不保密√。 (请在以上相应方框内打“√”) 签名: 日期:200年月 日 师签名: 日期:200年月 日 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。 Abstract At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program. This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search. Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.: HTTP, routine, spider 目 录 1 绪 论 1 1.1课题研究背景 1 1.2国内外研究现状 1 1.3 本论文的结构 4 2 程序设计目标及策略 5 2.1程序分析 5 2.1.1 多线程搜索 5 2.1.2 数据库队列管理 5 2.1.3 检索引擎——Lucene 6 2.2功能点技术分析 6 2.2.1 Spider如何获取URL链接的获取 6 2.2.2 程序结构的选择 6 2.2.3利用递归构造Spider 6 2.2.4利用非递归构造Spider 7 2.2.5 Spider程序的队列 7 2.2.6全文索引 8 3 程序设计与实现、测试 9 3.1 HTTP类及相关类的设计与实现 9 3.2 蜘蛛程序工作核心类设计与实现 13 3.2.1 蜘蛛程序中线程的设计 13 3.2.2 多线程

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档