- 6
- 0
- 约1.8万字
- 约 24页
- 2016-08-05 发布于贵州
- 举报
网络爬虫Java实现原理
网络爬虫(Spider)Java实现原理 收藏
?“网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。Java语言在此非常适合构建一个“蜘蛛”程序,其内建了对HTTP协议的支持,通过它可以传输大部分的网页信息;其还内建了一个HTML解析器,正是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。文章后面例1的示例程序,将会扫描一个网站,并寻找死链接。使用这个程序时需先输入一个URL并单击“Begin”按钮,程序开始之后,“Begin”按钮会变成“Cancel”按钮。在程序扫描网站期间,会在“Cancel”按钮之下显示进度,且在检查当前网页时,也会显示相关正常链接与死链接的数目,死链接将显示在程序底部的滚动文本框中。单击“Cancel”按钮会停止扫描过程,之后可以输入一个新的URL;如果期间没有单击“Cancel”,程序将会一直运行直到查找完所有网页,此后,“Cancel”按钮会再次变回“Begin”,表示程序已停止。下面将演示示例程序是如何与可复用“Spider”类交互的,示例程序包含在例1的CheckLinks类中,这个类实现了IS
您可能关注的文档
- 网络工程毕业设计(论文)-IPv4_IPv6隧道技术的通信研究--133740967.doc
- 网络工程毕业设计(论文)-PAM聚类算法的分析与实现--168058645.doc
- 网络工程毕业设计(论文)-信息、知识、智能的转换和算法分析--181398193.doc
- 网络工程毕业设计(论文)-基于ACL的校园网络安全策略--107509933.doc
- 网络工程毕业设计(论文)-基于Binary Trie的IP地址查找算法研究与实现--160482613.doc
- 网络工程毕业设计(论文)-基于BS模式的中小企业人事管理系统的设计与实现--156237617.doc
- 网络工程毕业设计(论文)-基于遗传算法的高校排课系统设计实现--115584635.doc
- 网络工程毕业设计(论文)-校园网规划与设计--网络设备选型、系统配置方案、系统模拟实现.docx
- 网络工程物资采购系统设计与实现--109963678.doc
- 网络工程论文--198896613.doc
最近下载
- 世界地理 超星尔雅学习通满分答案章节测验.doc VIP
- 2026北京中考语文精细复习资料(考纲导向·备考大全).pdf
- 二界沟渔港工程梁板式高桩码头结构毕业设计.doc VIP
- 高桩码头毕业设计浙江省苍南巴艚中心渔港工程样本.pdf VIP
- 2025年燃气管道项目可行性研究报告.docx VIP
- 22CJ110-1 防火玻璃及其门窗幕墙系统建筑构造——恒保防火玻璃系统产品 参考图集.docx
- 2025年神经外科简答试题及答案.docx
- wefp升级电气火灾监控系统说明书wefps主机.pdf VIP
- 10.1相交线对顶角及其性质第1课时课件 沪科版(2024)数学 七年级下册.pptx VIP
- 新版《建设工程监理规范》(GB50319-2022)基本表式总表.pdf VIP
原创力文档

文档评论(0)