网络爬虫_实验手册.doc

网络爬虫_实验手册

网络爬虫 实验目标 熟悉网络爬虫的相关概念及实现网络爬虫的相关流程。 了解WebCollector框架的基本原理。 熟练掌握在Eclipse项目中配置使用WebCollector爬虫。 前提条件 正确安装和配置Java开发环境。 了解网络爬虫的相关知识 进入WebCollector官方网站下载所需jar包。WebCollector框架实现一个简单的聚焦网络爬虫。用户可根据自己的需求定制网络爬虫,设定待爬取的网址、爬取网页的数量、爬取网页的内容等。通过对该实例的详细介绍来探讨网络爬虫的原理及在实际生活中的应用。 在此实例的基础上,学生需要独立完成更为复杂的聚焦网络爬虫,来爬取更有意义的内容。具体要求见“4 扩展内容”。 建立应用程序项目 打开eclipse,创建本次实验项目htmlCrawler(【File】-【New】-【Java Project】 )如图1所示。 图1 创建工程 在Eclipse项目中配置使用WebCollector爬虫 1 选中 htmlCrawler 右键,选中【New】-【Folder】,输入文件名称“lib”,如下图2所示。 图2 创建文件夹 2解压缩 webcollector-2.26-bin.zip,拷贝所有的Jar包 ,放到lib目录中,如图3所示。 图3 目录结构图 3将jar包到build path中。 图4 图5 图6 依次选中jar包,导

文档评论(0)

1亿VIP精品文档

相关文档