nutch应用安装与使用.docVIP

  • 1
  • 0
  • 约5.95千字
  • 约 5页
  • 2016-11-24 发布于浙江
  • 举报
nutch应用安装与使用

nutch应用-安装与使用 Nutch 使用之锋芒初试 ????????????????????????????   “工欲善其事,必先利其器。”经过前文的“细解”,我们已经完成了Nutch在Windows中的安装。接下来就让我们通过锋芒初试,来亲自体验一下Nutch的强大功能吧! ????   Nutch的爬虫抓取网页有两种方式,一种方式是Intranet Crawling,针对的是企业内部网或少量网站,使用的是crawl命令;另一种方式是Whole-web crawling,针对的是整个互联网,使用inject、generate、fetch和updatedb等更底层的命令。 本文将以使用Nutch为笔者在CSDN处的个人专栏(/zjzcl)文章内容建立搜索功能为例,来讲述Intranet Crawling的基本使用方法(假设用户电脑系统已安装好JDK、Tomcat和Resin,并做过相应的环境配置)。 ????   1、设置Nutch的环境变量   在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:\j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:\j2sdk1.4.2_09。 ????   2、Nutch抓取网站页面前的准备工作   (1)在Nutch的

文档评论(0)

1亿VIP精品文档

相关文档