Apache Nutch1.7 学习总结概要1.docx

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Apache Nutch1.7 学习总结概要1

Apache Nutch学习总结前言学习使用nutch的时间加起来能有一个月了,在网上也搜集了不少的资料,但是比较零散,所以想把这一个月使用它的全部过程、原理的讲解和中间的注意事项总结一下。主要汇总写网上已有的资料,方便查阅嘛。Nutch在Windows下的搭建过程1 准备工作我是在Window7下搭建的Nutch,所需要的工具如下:(1)Cygwin安装(2)jdk-6u25-win-i586.bin(2)apache-nutch-1.2-bin.tar.gz2 安装Cygwin下载地址:/setup.exe(1)因为nutch自身的命令是要在linux环境下才能运行,所以先安装了cygwin,Cygwin 是一个在Windows下的模拟Linux系统程序。Cygwin的安装:/cfree_ch/doc/help/UsingCF/CompilerSupport/Cygwin/Cygwin1.htm这个网址对cygwin的安装步骤演示的很详细,对我们这些初步接触cygwin的人有很大的帮助。下面是我自己安装时的截图1)安装页面,点击下一步????  图示中共有三种安装方式:  (1)Install from Internet:从Internet上下载并安装软件;  (2)Download Without Installing:从Internet上下载安装的文件,但暂时不安装;  (3)Install from Local Directory:从本地含有安装文件的目录进行安装。我们选择第一项“Install from Internet”后,点击“下一步”选择安装目录,可以根据默认,也可以根据自己需要换路径建立Downloads文件夹,接收下载包4)选择镜像地址,没有演示中说的:代表中国的网站,下载会更快5)选择安装包安装向导显示出所要安装的内容列表,用户可以根据自己的实际需要来决定安装哪些程序。点击循环箭头图标后面的文字,可以更改安装的方式,常用的方式有Default(表示只安装缺省的安装项)、Install(表示安装全部程序,空间要求较大)、Reinstall(表示重新安装程序)。6)安装完成至此,笔者还要对Cygwin再多说几句。Cygwin是一个在Windows平台上模拟运行Unix的环境,用户可以通过它来熟悉与学习Unix系统的操作。对于Unix系统还不甚熟悉的读者可以参阅笔者之前写作的《Unix操作系统的入门与基础》、《Unix的轻便“约取而实得”》系列文章,下文中对涉及使用到的Unix命令将不再给予具体解释。3安装Nutch1.7Nutch是一个Java实现的web爬虫,爬取的结果存储到database(指定文件路径下的一系列文件及目录)供Solr或Lucene索引和检索。2014年发布的最新版本有两个:主流的v1.7和支持大范围爬取、大数据存储的v2.0。常见搜索相关的框架的基本功能列表:爬取索引检索Nutch√Solr√√Lucene√√Grub√Larbin√Grub (search engine)是开源的分布式搜索爬虫平台(distributed search?crawler platform)。创建于2000年,2003年被LookSmart收购,后来被中止,2007年再次启动。官网。注意与GNU GRUB的不同,GNU GRUB是计算机启动的引导加载程序(boot loader)。Larbin是法国人用C++实现的web爬虫,最近已经不更新了。下载安装apache-nutch-1.7-bin.zip并设置。下载地址:/dist/nutch/(1)下载完成后将其解压到D盘,文件夹名为nutch-1.7解压缩Nutch二进制分发包,目录如下:bin目录,只包含一个可执行文件nutchconf目录,nutch命令执行的配置参数docs目录,JavaDoc帮助lib目录,相关Jar类库plugins目录,相关插件库(2)输入,打开到d盘目录下nutch-1.7文件夹,输入bin/nutch 进行nutch安装测试:出来一系列nutch的命令,证明nutch安装成功;“工欲善其事,必先利其器。”经过前文的“细解”,我们已经完成了Nutch在Windows中的安装。接下来就让我们通过锋芒初试,来亲自体验一下Nutch的强大功能吧!(3)在Windows系统的环境变量设置中,添加NUTCH_JAVA_HOME环境变量:   D:\jdk1.7.0_07。并将其值设为JDK的安装目录。4 Nutch1.7测试Nutch的爬虫抓取网页有两种方式,一种方式是Intranet Crawling,针对的是企业内部网或少量网站,使用的是crawl命令;另一种方式是Whole-web crawling,针对的是整个互联网,

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档