运行模式
nutch分两个运行模式:集群(运行在hadoop上,文件存储在hdfs)和本地,runtime文件夹下的两个文件夹deploy和local分别代表着集群运行模式和本地运行模式,两个文件夹下都有bin文件夹,里面存放着运行脚本(crawl和nutch),在不同的文件夹下运行这些脚本就会在不同的集群上运行任务了,另外,在deploy文件夹下运行脚本,是把该文件夹下打好的job包(apache-nutch-1.7.job)提交到hadoop上(利用hadoop命令),这就要求实现应该搭好hadoop环境。
nutch脚本根据所在的文件夹来判断该运行的模式。
运行nutch命令后可以看到这种命令,查看每种命令(如crawl命令)对应的是哪一个类,就要再用到nutch脚本了。如下图所示:
nutch的入门重点在于分析nutch脚本,该脚本宏观的控制nutch运行。
如果要在本地模式下运行爬行程序,则在local文件夹下执行bin/nutch crawl urls(种子文件夹) -dir data(抓取的页面存放目录) -depth 2 -threads 10 -topN 50 crawl.log
是把日志(抓取过程)存放在crawl.log中,是后台运行。运行后的结果:
运行命令(抓取深度等参数在省略时用的默认值):
配置文件
Nutch的配置文
原创力文档

文档评论(0)