nutch整体分析笔记方案.doc

下载文档 降价啦

1
0
约2.55千字
约 8页
2016-12-22 发布于湖北
举报
保障服务

nutch整体分析笔记方案.doc

运行模式 nutch分两个运行模式:集群(运行在hadoop上，文件存储在hdfs)和本地,runtime文件夹下的两个文件夹deploy和local分别代表着集群运行模式和本地运行模式，两个文件夹下都有bin文件夹，里面存放着运行脚本(crawl和nutch),在不同的文件夹下运行这些脚本就会在不同的集群上运行任务了，另外，在deploy文件夹下运行脚本，是把该文件夹下打好的job包(apache-nutch-1.7.job)提交到hadoop上(利用hadoop命令)，这就要求实现应该搭好hadoop环境。 nutch脚本根据所在的文件夹来判断该运行的模式。运行nutch命令后可以看到这种命令，查看每种命令(如crawl命令)对应的是哪一个类，就要再用到nutch脚本了。如下图所示: nutch的入门重点在于分析nutch脚本，该脚本宏观的控制nutch运行。如果要在本地模式下运行爬行程序，则在local文件夹下执行bin/nutch crawl urls(种子文件夹) -dir data(抓取的页面存放目录) -depth 2 -threads 10 -topN 50 crawl.log 是把日志(抓取过程)存放在crawl.log中，是后台运行。运行后的结果: 运行命令（抓取深度等参数在省略时用的默认值）: 配置文件 Nutch的配置文

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

nutch整体分析笔记方案.doc