基于JAVA的网络蜘蛛的设计与实现.pdfVIP

下载本文档

2
0
约8.66千字
约 3页
2017-08-12 发布于重庆
举报
版权申诉

基于JAVA的网络蜘蛛的设计与实现.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于JAVA的网络蜘蛛的设计与实现.pdf

信息科学 Ⅵ删裂 ●缀基于：JAVA的网络蜘蛛的设计与实现郑志材张晶 (肇庆工商职业技术学院计算机应用技术系广东肇庆526020) 【摘要】网络蜘蛛是现代搜索引擎获取网络信息的重要手段，直接影响到搜索引擎的查全率，SUN公司发布的JAVA在其网络程序设计方面有其突出的特色t设计～个简单的网络蜘蛛并通过JAVA语言将其实现。【关键词】JAVA嘲络蜘蛛搜索引擎中图分类号：TP3文献标识码：A文章编号：1671--7597(2009)0720046--02 在当前信息科技发达的今天，对于大部分人来讲，获取信息的主要工具就是搜索引擎。但是对于所有的搜索引擎来说，本文介绍的是将搜索引列中没有URL，并且所有的下载线程都处于休眠状态，说明已经下载完了由擎用f收集网页的重要工具——网络蜘蛛(Web Spider)。网络蜘蛛的主入口网址所引出的所有网络资源。这时网络蜘蛛会提示F载完成，并停止要作用是搜集互联网的网页，我们也可以用他来定期收集某个网站的内下载。容，用来判断网站的发展。从网络蜘蛛的J=作原理来看，“网络蜘蛛”是 3．分析这些下载到本地的未分析过的网络资源(一般为html代一个比较形象的名字，他是在互联网内，通过网页链接，从一个网页爬到另一个网页进行网页搜集的工具。他工作通常是这样进行的：对于一个网中。因此，我们需要将它保存在容最更大的存储空间中．这就是硬盘。页，通过对这个网页的内容的分析。分析这个网页里面的链接。根据链接 4．将第3步获得的URL加入到F载队列中。并重新执行第2步。进入另一个网页．再进行上面的操作，直到把这个网站的网页全部下载到：、在页面中囊行算法的设计本地计算机。页面间爬行算法的设计，其实就是网络蜘蛛遍历链接先后的爬行策 JAVA语言是SUN公司的开发平台，是一种优秀的网络编程语言， Java语言在此非常适合构建一个“蜘妹”程序，其内建了对HTTP协议的支网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链持，通过它可以传输大部分的网页信息；其还内建了一个HTML解析器，正接网页，继续抓取在此嘲页中链接的所有嘲页。这是最常用的方式，因为是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。下面介绍下这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指嘲络如何设计一个简单的网络蜘蛛并用JAVA实现。蜘蛛会从起始页开始．～个链接一个链接跟踪F去，处理完这条线路之后一、罔络■蛛的基本实现思想和实现步● 再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别，图2的说明会更加明确：图2遍历算法图示图l网络蜘蛛的工作流程一般因为标准的网站构建尽量是贴近扁平式的，如果选用深度遍历算网络蜘蛛的主要作用是从Internet上不停地F载网络资源。它的基本法每爬一层就要访问队列一次，数据访问次数多于广度遍历算法，在时间实现思想就是通过一个或多个入u网址来获取更多的URL．然后通过对这些复杂度尚处于劣势。并且网络蜘蛛也采用多线程方式实现，所以变了算法 URL所指向的网络资源下载并分析后，再获得这螳嘲络资源中包含的URL，选用的是广度优先遍历更为合理。以此类推，直到再没有可下的URL为止．下面是用程序实现网络蜘蛛的具体三、鲁模块的设计与实现步骤：对于网络蜘蛛来说，实现网络蜘蛛的最重要的三个模块是HTML的解 1．指定一个(或多个)入口网址，并将这个网址加入到下载队列中析、网页下载以及嘲页的遍历。 (这时下载队列中只有一个或多个入口网址)． (--