nutch整体分析笔记讲解.doc

下载文档 降价啦

3
0
约2.55千字
约 8页
2017-02-07 发布于湖北
举报
版权申诉
保障服务

nutch整体分析笔记讲解.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

nutch整体分析笔记讲解

运行模式 nutch分两个运行模式:集群(运行在hadoop上，文件存储在hdfs)和本地,runtime文件夹下的两个文件夹deploy和local分别代表着集群运行模式和本地运行模式，两个文件夹下都有bin文件夹，里面存放着运行脚本(crawl和nutch),在不同的文件夹下运行这些脚本就会在不同的集群上运行任务了，另外，在deploy文件夹下运行脚本，是把该文件夹下打好的job包(apache-nutch-1.7.job)提交到hadoop上(利用hadoop命令)，这就要求实现应该搭好hadoop环境。 nutch脚本根据所在的文件夹来判断该运行的模式。运行nutch命令后可以看到这种命令，查看每种命令(如crawl命令)对应的是哪一个类，就要再用到nutch脚本了。如下图所示: nutch的入门重点在于分析nutch脚本，该脚本宏观的控制nutch运行。如果要在本地模式下运行爬行程序，则在local文件夹下执行bin/nutch crawl urls(种子文件夹) -dir data(抓取的页面存放目录) -depth 2 -threads 10 -topN 50 crawl.log 是把日志(抓取过程)存放在crawl.log中，是后台运行。运行后的结果: 运行命令（抓取深度等参数在省略时用的默认值）: 配置文件 Nutch的配置文件存放在Nutch目录下的conf文件夹下，对此文件夹下的配置文件做的修改，需要执行ant命令(直接键入ant,此时在该路径下必须有build.xml)重新编译Nutch，由于编译所依赖的jar都已经缓存，重新编译花费的时间是很短暂的。对该文件夹下的文件所做的修改，在重新编译后也会更新到runtime目录下的deploy和local目录下的conf目录中，所以大家不要奇怪，明明只是修改了根目录下的conf中的配置文件，local和deploy目录中的配置文件也做了相同的修改。现在就来看看conf目录下有哪些重要的配置文件。 Conf目录下的文件有：automaton-urlfilter.txt、gora-accumulo-mapping.xml、hbase-site.xml、nutch-site.xml、regex-urlfilter.txt、suffix-urlfilter.txt、 configuration.xsl、gora-cassandra-mapping.xml、httpclient-auth.xml、parse-plugins.dtd、schema-solr4.xml、domain-suffixes.xml、gora-hbase-mapping.xml、perties、parse-plugins.xml、schema.xml、domain-suffixes.xsd、perties、nutch-conf.xsl、prefix-urlfilter.txt、solrindex-mapping.xml、domain-urlfilter.txt、gora-sql-mapping.xml、nutch-default.xml、regex-normalize.xml、subcollections.xml。在这些文件中以txt结尾的文件用于定义爬取网页时的过滤规则，比如正则表达式过滤、前缀过滤、后缀过滤等，有些文件是用于solr索引的，比如schema-solr4.xml、schema.xml等，对于刚开始学习Nutch的人（包括自己），比较重要的文件有2个：nutch-site.xml、nutch-default.xml。nutch-default.xml保存了Nutch所有可用的属性名称及默认的值，当需要修改某些属性值时，可以拷贝该文件中的属性到nutch-site.xml中，并修改为自定义的值。不做任何配置修改的情况，文件nutch-site.xml不包含任何属性和属性值，该文件用于保存用户调整Nutch配置后的属性。基本抓取流程既然是爬虫，那么其最核心的工作就是“将网上的资源下载到本地”。nutch采用了MapReduce分布式爬取和解析，具有良好的水平扩展性，此外，nutch还完成了诸如将爬取下来的工作建立lucene索引，建立网络拓扑图(web graph)，链接分析等额外的工作。为了支持完成这些工作，nutch采用如下物化的数据结构来保存爬取过程中的数据。主要关注nutch实现的基本爬虫的功能，即上图中黄框部分，由于图1中省略了injector部分，故用图2表示。图2是最基本的业务流视角的nutch爬取流程，流程含有inject、generate、fetch、parse、updatedb五个阶段(以下皆称之为“阶