网络爬虫_实验手册
网络爬虫
实验目标
熟悉网络爬虫的相关概念及实现网络爬虫的相关流程。
了解WebCollector框架的基本原理。
熟练掌握在Eclipse项目中配置使用WebCollector爬虫。
前提条件
正确安装和配置Java开发环境。
了解网络爬虫的相关知识
进入WebCollector官方网站下载所需jar包。WebCollector框架实现一个简单的聚焦网络爬虫。用户可根据自己的需求定制网络爬虫,设定待爬取的网址、爬取网页的数量、爬取网页的内容等。通过对该实例的详细介绍来探讨网络爬虫的原理及在实际生活中的应用。
在此实例的基础上,学生需要独立完成更为复杂的聚焦网络爬虫,来爬取更有意义的内容。具体要求见“4 扩展内容”。
建立应用程序项目
打开eclipse,创建本次实验项目htmlCrawler(【File】-【New】-【Java Project】
)如图1所示。
图1 创建工程
在Eclipse项目中配置使用WebCollector爬虫
1 选中 htmlCrawler 右键,选中【New】-【Folder】,输入文件名称“lib”,如下图2所示。
图2 创建文件夹
2解压缩 webcollector-2.26-bin.zip,拷贝所有的Jar包 ,放到lib目录中,如图3所示。
图3 目录结构图
3将jar包到build path中。
图4
图5
图6
依次选中jar包,导
您可能关注的文档
- 网络互连 广域网帧中继连接.ppt
- 网络化寻呼分控软件使用说明.doc
- 网络存储技术及其备份与容灾.ppt
- 网络发展对中国现实生活的影响.pptx
- 罐内脚手架.doc
- 网络安全实验报告-Nessus扫描工具的使用.docx
- 网络信息检索实务 15信管.ppt
- 网络安全防护技术支持服务项目+等保定级.docx
- 网络安全技术06.ppt
- 网络工程试题库.doc
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)