- 5
- 0
- 约9.93千字
- 约 9页
- 2017-08-12 发布于河南
- 举报
Nutch
安装配置
Linux
安装JDK
如果你已经安装了JDK,并且已经设置了JAVA_HOME,那么跳过这一步
jdk 代码
sudo apt-get install sun-java5-jdk
或者从sun公司网站下载bin文件执行安装
JAVA_HOME代码
sudo vi ~/.bashrc
在最后面增加代码
export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun
export PATH=$PATH:$JAVA_HOME/bin
下载nutch的最新版本nutch0.8.1
wget /lucene/nutch/nutch-0.8.1.tar.gz
释放下来即可
代码
tar zxvf nutch-0.8.1.tar.gz
抓取页面
增加url
代码
cd nutch-0.8.1
mkdir urls
echo urls/xici
编辑conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME为
+^http://([a-z0-9]*\.)*/
修改conf/nutch-site.xml,增加值
property
name/name
valuetest/unique/value
/property
执行bin/nut
原创力文档

文档评论(0)