nutch应用–安装与使用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
nutch应用–安装与使用

nutch应用-安装与使用Nutch 使用之锋芒初试 ????????????????????????????   “工欲善其事,必先利其器。”经过前文的“细解”,我们已经完成了Nutch在Windows中的安装。接下来就让我们通过锋芒初试,来亲自体验一下Nutch的强大功能吧! ????   Nutch的爬虫抓取网页有两种方式,一种方式是Intranet Crawling,针对的是企业内部网或少量网站,使用的是crawl命令;另一种方式是Whole-web crawling,针对的是整个互联网,使用inject、generate、fetch和updatedb等更底层的命令。 本文将以使用Nutch为笔者在CSDN处的个人专栏(/zjzcl)文章内容建立搜索功能为例,来讲述Intranet Crawling的基本使用方法(假设用户电脑系统已安装好JDK、Tomcat和Resin,并做过相应的环境配置)。 ????   1、设置Nutch的环境变量   在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:\j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:\j2sdk1.4.2_09。 ????   2、Nutch抓取网站页面前的准备工作   (1)在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。笔者在此文件中写入如下内容: ????   /zjzcl ????   (2)编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分: ????   # accept hosts in MY.DOMAIN.NAME   +^/zjzcl ????   3、运行Crawl命令抓取网站内容 ????   双击电脑桌面上的Cygwin图标,在命令行窗口中输入: ????   cd /cygdrive/i/nutch-0.7.1 ????   不明白此命令含义的读者请参见前《细解》一文,然后再输入: ????   bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 crawl.log ????   等待大约2分多钟后,程序运行结束。读者会发现在nutch-0.7.1目录下被创建了一个名为crawled的文件夹,同时还生成一个名为crawl.log的日志文件。利用这一日志文件,我们可以分析可能遇到的任何错误。另外,在上述命令的参数中,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数。 ????   4、使用Tomcat进行搜索测试 ????   (1)将tomcat\webapps下的ROOT文件夹名改成ROOT1;   (2)将nutch-0.7.1目录的nutch-0.7.1.war复制到tomcat\webapps下,并将其改名为ROOT;   (3)打开ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式: ????   ?xml version=1.0?   ?xml-stylesheet type=text/xsl href=nutch-conf.xsl?   !-- Put site-specific property overrides in this file. --   nutch-conf    property     namesearcher.dir/name     valueI:/nutch-0.7.1/crawled/value    /property   /nutch-conf ??   其中的“valueI:/nutch-0.7.1/crawled/value”部分,读者应根据自己的设置进行相应修改。   (4)启动Tomcat,打开浏览器在地址栏中输入:http://localhost:8080,如图1所示: ????   在文本框中输入关键字,就可以进行搜索了。不过用户在使用时会发现,对于英文单词的搜索一切正常,而当要搜索中文词语时会出现乱码。其实这个问题是Tomcat设置的问题,解决办法是修改tomcat\conf下的server.xml文件,将其中的Connector部分改成如下形式即可: ????   Connector port=8080 maxThreads=150 minSpareThreads=25 maxSpareThreads=75 ??????????????? enableLookups=fal

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档