基于JAVA的网络蜘蛛的设计与实现.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于JAVA的网络蜘蛛的设计与实现.pdf

信息 科学 Ⅵ删裂 ●缀 基于:JAVA的网络蜘蛛的设计与实现 郑志材张晶 (肇庆工商职业技术学院计算机应用技术系广东肇庆526020) 【摘要】网络蜘蛛是现代搜索引擎获取网络信息的重要手段,直接影响到搜索引擎的查全率,SUN公司发布的JAVA在其网络程序设计方面有其突出的特色t设 计~个简单的网络蜘蛛并通过JAVA语言将其实现。 【关键词】JAVA嘲络蜘蛛搜索引擎 中图分类号:TP3文献标识码:A文章编号:1671--7597(2009)0720046--02 在当前信息科技发达的今天,对于大部分人来讲,获取信息的主要工 具就是搜索引擎。但是对于所有的搜索引擎来说,本文介绍的是将搜索引 列中没有URL,并且所有的下载线程都处于休眠状态,说明已经下载完了由 擎用f收集网页的重要工具——网络蜘蛛(Web Spider)。网络蜘蛛的主入口网址所引出的所有网络资源。这时网络蜘蛛会提示F载完成,并停止 要作用是搜集互联网的网页,我们也可以用他来定期收集某个网站的内 下载。 容,用来判断网站的发展。从网络蜘蛛的J=作原理来看,“网络蜘蛛”是 3.分析这些下载到本地的未分析过的网络资源(一般为html代 一个比较形象的名字,他是在互联网内,通过网页链接,从一个网页爬到 另一个网页进行网页搜集的工具。他工作通常是这样进行的:对于一个网 中。因此,我们需要将它保存在容最更大的存储空间中.这就是硬盘。 页,通过对这个网页的内容的分析。分析这个网页里面的链接。根据链接 4.将第3步获得的URL加入到F载队列中。并重新执行第2步。 进入另一个网页.再进行上面的操作,直到把这个网站的网页全部下载到 :、在页面中囊行算法的设计 本地计算机。 页面间爬行算法的设计,其实就是网络蜘蛛遍历链接先后的爬行策 JAVA语言是SUN公司的开发平台,是一种优秀的网络编程语言, Java语言在此非常适合构建一个“蜘妹”程序,其内建了对HTTP协议的支 网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链 持,通过它可以传输大部分的网页信息;其还内建了一个HTML解析器,正 接网页,继续抓取在此嘲页中链接的所有嘲页。这是最常用的方式,因为 是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。下面介绍下 这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指嘲络 如何设计一个简单的网络蜘蛛并用JAVA实现。 蜘蛛会从起始页开始.~个链接一个链接跟踪F去,处理完这条线路之后 一、罔络■蛛的基本实现思想和实现步● 再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设 计的时候比较容易。两种策略的区别,图2的说明会更加明确: 图2遍历算法图示 图l网络蜘蛛的工作流程 一般因为标准的网站构建尽量是贴近扁平式的,如果选用深度遍历算 网络蜘蛛的主要作用是从Internet上不停地F载网络资源。它的基本法每爬一层就要访问队列一次,数据访问次数多于广度遍历算法,在时间 实现思想就是通过一个或多个入u网址来获取更多的URL.然后通过对这些 复杂度尚处于劣势。并且网络蜘蛛也采用多线程方式实现,所以变了算法 URL所指向的网络资源下载并分析后,再获得这螳嘲络资源中包含的URL, 选用的是广度优先遍历更为合理。 以此类推,直到再没有可下的URL为止.下面是用程序实现网络蜘蛛的具体 三、鲁模块的设计与实现 步骤: 对于网络蜘蛛来说,实现网络蜘蛛的最重要的三个模块是HTML的解 1.指定一个(或多个)入口网址,并将这个网址加入到下载队列中 析、网页下载以及嘲页的遍历。 (这时下载队列中只有一个或多个入口网址). (--

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档