nutch整体分析笔记讲解.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
nutch整体分析笔记讲解

运行模式 nutch分两个运行模式:集群(运行在hadoop上,文件存储在hdfs)和本地,runtime文件夹下的两个文件夹deploy和local分别代表着集群运行模式和本地运行模式,两个文件夹下都有bin文件夹,里面存放着运行脚本(crawl和nutch),在不同的文件夹下运行这些脚本就会在不同的集群上运行任务了,另外,在deploy文件夹下运行脚本,是把该文件夹下打好的job包(apache-nutch-1.7.job)提交到hadoop上(利用hadoop命令),这就要求实现应该搭好hadoop环境。 nutch脚本根据所在的文件夹来判断该运行的模式。 运行nutch命令后可以看到这种命令,查看每种命令(如crawl命令)对应的是哪一个类,就要再用到nutch脚本了。如下图所示: nutch的入门重点在于分析nutch脚本,该脚本宏观的控制nutch运行。 如果要在本地模式下运行爬行程序,则在local文件夹下执行bin/nutch crawl urls(种子文件夹) -dir data(抓取的页面存放目录) -depth 2 -threads 10 -topN 50 crawl.log 是把日志(抓取过程)存放在crawl.log中,是后台运行。运行后的结果: 运行命令(抓取深度等参数在省略时用的默认值): 配置文件 Nutch的配置文件存放在Nutch目录下的conf文件夹下,对此文件夹下的配置文件做的修改,需要执行ant命令(直接键入ant,此时在该路径下必须有build.xml)重新编译Nutch,由于编译所依赖的jar都已经缓存,重新编译花费的时间是很短暂的。对该文件夹下的文件所做的修改,在重新编译后也会更新到runtime目录下的deploy和local目录下的conf目录中,所以大家不要奇怪,明明只是修改了根目录下的conf中的配置文件,local和deploy目录中的配置文件也做了相同的修改。现在就来看看conf目录下有哪些重要的配置文件。 Conf目录下的文件有: automaton-urlfilter.txt、gora-accumulo-mapping.xml、hbase-site.xml、nutch-site.xml、regex-urlfilter.txt、suffix-urlfilter.txt、 configuration.xsl、gora-cassandra-mapping.xml、httpclient-auth.xml、parse-plugins.dtd、schema-solr4.xml、domain-suffixes.xml、gora-hbase-mapping.xml、perties、parse-plugins.xml、schema.xml、domain-suffixes.xsd、perties、nutch-conf.xsl、prefix-urlfilter.txt、solrindex-mapping.xml、domain-urlfilter.txt、gora-sql-mapping.xml、nutch-default.xml、regex-normalize.xml、subcollections.xml。 在这些文件中以txt结尾的文件用于定义爬取网页时的过滤规则,比如正则表达式过滤、前缀过滤、后缀过滤等,有些文件是用于solr索引的,比如schema-solr4.xml、schema.xml等,对于刚开始学习Nutch的人(包括自己),比较重要的文件有2个:nutch-site.xml、nutch-default.xml。nutch-default.xml保存了Nutch所有可用的属性名称及默认的值,当需要修改某些属性值时,可以拷贝该文件中的属性到nutch-site.xml中,并修改为自定义的值。不做任何配置修改的情况,文件nutch-site.xml不包含任何属性和属性值,该文件用于保存用户调整Nutch配置后的属性。 基本抓取流程 既然是爬虫,那么其最核心的工作就是“将网上的资源下载到本地”。nutch采用了MapReduce分布式爬取和解析,具有良好的水平扩展性,此外,nutch还完成了诸如将爬取下来的工作建立lucene索引,建立网络拓扑图(web graph),链接分析等额外的工作。为了支持完成这些工作,nutch采用如下物化的数据结构来保存爬取过程中的数据。 主要关注nutch实现的基本爬虫的功能,即上图中黄框部分,由于图1中省略了injector部分,故用图2表示。 图2是最基本的业务流视角的nutch爬取流程,流程含有inject、generate、fetch、parse、updatedb五个阶段(以下皆称之为“阶

文档评论(0)

此项为空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档