nutch整体分析笔记方案.doc

运行模式 nutch分两个运行模式:集群(运行在hadoop上,文件存储在hdfs)和本地,runtime文件夹下的两个文件夹deploy和local分别代表着集群运行模式和本地运行模式,两个文件夹下都有bin文件夹,里面存放着运行脚本(crawl和nutch),在不同的文件夹下运行这些脚本就会在不同的集群上运行任务了,另外,在deploy文件夹下运行脚本,是把该文件夹下打好的job包(apache-nutch-1.7.job)提交到hadoop上(利用hadoop命令),这就要求实现应该搭好hadoop环境。 nutch脚本根据所在的文件夹来判断该运行的模式。 运行nutch命令后可以看到这种命令,查看每种命令(如crawl命令)对应的是哪一个类,就要再用到nutch脚本了。如下图所示: nutch的入门重点在于分析nutch脚本,该脚本宏观的控制nutch运行。 如果要在本地模式下运行爬行程序,则在local文件夹下执行bin/nutch crawl urls(种子文件夹) -dir data(抓取的页面存放目录) -depth 2 -threads 10 -topN 50 crawl.log 是把日志(抓取过程)存放在crawl.log中,是后台运行。运行后的结果: 运行命令(抓取深度等参数在省略时用的默认值): 配置文件 Nutch的配置文

文档评论(0)

1亿VIP精品文档

相关文档