- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
nutch(windows7环境下的配置)
经过好几天的尝试,终于成功在windows7的环境下将nutch成功运行出来了,下面将经验记下。
1、cygwin的安装:下载地址: /setup.exe
(1)因为nutch自身的命令是要在linux环境下才能运行,所以先安装了cygwin,Cygwin 是一个在Windows下的模拟Linux系统程序。Cygwin的安装: /cfree_ch/doc/help/UsingCF/CompilerSupport/Cygwin/Cygwin1.htm
这个网址对cygwin的安装步骤演示的很详细,对我们这些初步接触cygwin的人有很大的帮助。
下面是我自己安装时的截图
1)安装页面,点击下一步
选择安装目录,可以根据默认,也可以根据自己需要换路径
建立Downloads文件夹,接收下载包
4)选择镜像地址,没有演示中说的:
5)选择安装包
6)安装完成
2、下载安装apache-nutch-1.2-bin.zip并设置。下载地址:/dist/nutch/
(1) 下载完成后将其解压到D盘,文件夹名为nutch-1.2
(2)输入,打开到d盘目录下nutch-1.2文件夹,输入bin/nutch 进行nutch安装测试: 出来一系列nutch的命令,证明nutch安装成功;
(3)在Windows系统的环境变量设置中,添加NUTCH_JAVA_HOME环境变量 : D:\jdk1.7.0_07。并将其值设为JDK的安装目录。
(4)Nutch抓取网站页面前的预备工作
1)在Nutch-1.2的安装目录下建立一个名为urls的文件夹,并在文件夹下建立url.text文件,在文件中写入: (即要抓取网站的网址)
2))修改网址过滤规则,编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:
3)修改conf/nutch-site.xml代理信息,在configuration和/configuration之间添加如下内容
4)修改nutch-1.2\conf\nutch-default.xml文件,找name/name , 然后随便设置Value值
注意:如果为空时,在爬行的时候可能出现空指针异常且在tomcat 中搜索时可能导致0条记录,所以务必加上。
(5)运行Crawl命令抓取网站内容
1)双击电脑桌面上的Cygwin图标,在命令行窗口中输入: cd /cygdrive/d/nutch-1.2
2)然后再输入: bin/nutch crawl urls -dir crawled -depth 4 -threads 3 -topN 30
3)大概1分多钟后,程序运行结束。发现在nutch-1.2目录下被创建了一个名为 crawled的文件夹,同时还生成一个名为crawl.log的日志文件。在上述命令的参 数中,crawl 是nutch检索数据命令,后面跟上要检索的URL文件;
-dir指定抓取内容所存放的目录;
-depth表示以要抓取网站顶级网址为起点的爬行深度;
-threads指定并发的线程数;
-topN 抓取时每页的最大抓取链接。
4)抓取结果:
5)在抓取过程中出现过如下问题:
这是设置linux环境变量,可以
jdk下载安装设置:nutch是用java开发的,所以下载jdk1.7.0_07安装。
(1)下载地址: /otn-pub/java/jdk/7u7-b11/jdk-7u7-windows-x64.exe?AuthParam=1349761485_89bac7bb18b87eb21d42858c503c0f3c
(2)下载完成后安装,并设置环境变量:
右键“我的电脑”—“属性”—“高级”—“环境变量”,在系统变量中,
添加JAVA_HOME环境变量:D:\jdk1.7.0_07(其值为jdk安装目录)
添加PATH环境变量: ;D:\jdk1.7.0_07\bin
添加CLASSPATH环境变量:D:\jdk1.7.0_07\lib\dt.jar;D:\jdk1.7.0_07\lib\tools.jar;
(3)变量设置
文档评论(0)