nutch(windows7环境下的配置).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
nutch(windows7环境下的配置)

经过好几天的尝试,终于成功在windows7的环境下将nutch成功运行出来了,下面将经验记下。 1、cygwin的安装:下载地址: /setup.exe (1)因为nutch自身的命令是要在linux环境下才能运行,所以先安装了cygwin,Cygwin 是一个在Windows下的模拟Linux系统程序。Cygwin的安装: /cfree_ch/doc/help/UsingCF/CompilerSupport/Cygwin/Cygwin1.htm 这个网址对cygwin的安装步骤演示的很详细,对我们这些初步接触cygwin的人有很大的帮助。 下面是我自己安装时的截图 1)安装页面,点击下一步 选择安装目录,可以根据默认,也可以根据自己需要换路径 建立Downloads文件夹,接收下载包 4)选择镜像地址,没有演示中说的: 5)选择安装包 6)安装完成 2、下载安装apache-nutch-1.2-bin.zip并设置。下载地址:/dist/nutch/ (1) 下载完成后将其解压到D盘,文件夹名为nutch-1.2 (2)输入,打开到d盘目录下nutch-1.2文件夹,输入bin/nutch 进行nutch安装测试: 出来一系列nutch的命令,证明nutch安装成功; (3)在Windows系统的环境变量设置中,添加NUTCH_JAVA_HOME环境变量 :    D:\jdk1.7.0_07。并将其值设为JDK的安装目录。 (4)Nutch抓取网站页面前的预备工作 1)在Nutch-1.2的安装目录下建立一个名为urls的文件夹,并在文件夹下建立url.text文件,在文件中写入: (即要抓取网站的网址) 2))修改网址过滤规则,编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分: 3)修改conf/nutch-site.xml代理信息,在configuration和/configuration之间添加如下内容 4)修改nutch-1.2\conf\nutch-default.xml文件,找name/name , 然后随便设置Value值 注意:如果为空时,在爬行的时候可能出现空指针异常且在tomcat 中搜索时可能导致0条记录,所以务必加上。 (5)运行Crawl命令抓取网站内容 1)双击电脑桌面上的Cygwin图标,在命令行窗口中输入: cd /cygdrive/d/nutch-1.2 2)然后再输入: bin/nutch crawl urls -dir crawled -depth 4 -threads 3 -topN 30 3)大概1分多钟后,程序运行结束。发现在nutch-1.2目录下被创建了一个名为 crawled的文件夹,同时还生成一个名为crawl.log的日志文件。在上述命令的参 数中,crawl 是nutch检索数据命令,后面跟上要检索的URL文件; -dir指定抓取内容所存放的目录; -depth表示以要抓取网站顶级网址为起点的爬行深度; -threads指定并发的线程数; -topN 抓取时每页的最大抓取链接。 4)抓取结果: 5)在抓取过程中出现过如下问题: 这是设置linux环境变量,可以 jdk下载安装设置:nutch是用java开发的,所以下载jdk1.7.0_07安装。 (1)下载地址: /otn-pub/java/jdk/7u7-b11/jdk-7u7-windows-x64.exe?AuthParam=1349761485_89bac7bb18b87eb21d42858c503c0f3c (2)下载完成后安装,并设置环境变量: 右键“我的电脑”—“属性”—“高级”—“环境变量”,在系统变量中, 添加JAVA_HOME环境变量:D:\jdk1.7.0_07(其值为jdk安装目录) 添加PATH环境变量: ;D:\jdk1.7.0_07\bin 添加CLASSPATH环境变量:D:\jdk1.7.0_07\lib\dt.jar;D:\jdk1.7.0_07\lib\tools.jar; (3)变量设置

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档