- 4
- 0
- 约1.48万字
- 约 17页
- 2016-11-22 发布于北京
- 举报
Nutch入门.doc
Nutch入门
nutch 0.9 C:\nutch-0.9 cygwin 1.5.25-7 C:\cygwin Jdk 1.5 C:\jdk Tomcat 5.5.17 C:\tomcat
准备
将中文的API文档配置到tomcat,可以通过/api/访问到api的主页即可
下载,安装cygwin
官方主页:/
选择install from local directory
安装到的目录
选择已经下载的安装文件所在的目录
选择全部安装(install)
……
需要等很长时间……
设置环境变量
NUTCH_JAVA_HOME ( C:\jdk
抓取
配置抓取的起始网站地址C:\nutch-0.9\ urls,内容为:
/api/
修改nutch-site.xml
?xml version=1.0?
?xml-stylesheet type=text/xsl href=configuration.xsl?
configuration
property
name/name
valueMySearch/value
/property
/configuration
解释:
?????? Nutch中的所有配置文件都放置在总目录下的conf子文件夹中,最基本的配置文件是conf/nutch-default.xml。这个文件中定
原创力文档

文档评论(0)