手把手教你使用Nutch搭建迷你搜索引擎经典概要1.docx

手把手教你使用Nutch搭建迷你搜索引擎经典概要1.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
手把手教你使用Nutch搭建迷你搜索引擎经典概要1

Nutch帮助Nutch官方资源/阅读导论Main关于Nutch的主要资源:工程、文档、源代码、相关工程WikiNutch贡献者页面Jira开源软件过程管理互联网上的开放资源发现有好的资源补充使用Nutch爬行网易官方资料获取:/nutch/FrontPageNutch的版本信息Nutch 1.X:How to configure Nutch to crawl in local mode and post to Apache Solr for search/indexNutch 2.X:How to get Nutch 2.X to use HBase as persistence layer for Gora JDK1.7安装下载地址:/javase/downloads/index.jsp安装:设置环境变量:1.右击计算机-属性-高级系统设置-高级-环境变量,弹出“环境变量”对话框,主要是改下面的环境变量,不是上面的Administrator。(不然其他用户还得自己配)添加JAVA_HOME指明JDK安装路径,如C:\Program Files\Java\jdk1.7.0,此路径下包括lib,bin,jre等文件夹2.在Path变量中添加:设为:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; ps:分号主要是用来分隔jdk的路径和其他系统程序和应用程序的路径。3.添加CLASSPATH变量为java加载类的(class or lib)路径,(这样java虚拟机装载class文件的时候才知道上哪去找只有类在classpath中,java命令才能识别)设为:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar (要加.表示当前路径,当前路径的意思就是你现在编译运行的程序class文件所在的地方) 测试是否配置成功:在dos中,输入命令java 回车后应该会出现java的各种命令; javac 也会出现相关编译的命令; java -version 出现jdk版本号,ps:注意java和javac都是命令(动词),后面-version可理解为宾语,中间是有空格的,切记!!!特别注意:在 cmd 中,输入 set java_home命令可以看到jdk安装目录; set path 可以看到path变量的值,各种程序的执行路径set classpath可以看到类装载路径◆环境变量值的结尾可加分号或不加,不同值之间用;(记住:分号是用来分隔的,只要是两个不同的路径都需要分号隔开)◆CLASSPATH变量值中的.表示当前目录,另外java_home这个变量整体被path和classpath引用,好处在于今后重装jdk后,只需改java_home的值Cygwin的安装下载地址:/安装步骤:/www100/item/b79723f239cf9449932af29fCygwin环境变量的设置export JAVA_HOME=/cygdrive/c/java/jdk1.7.0_17alias ls=ls --color --show-control-chars --time-style=long-iso#export LC_ALL=zh_CN.GB23122export LC_CTYPE=zh_CN.GB2312export LANG=zh_CN.GB2312export XMODIFIERS=@im=Chinput3stty cs8 -istripstty pass8# Update: 少了这个less就不支持中文# 让ls和dir命令显示中文和颜色alias ls=ls --show-control-chars --coloralias dir=dir -N --color# 设置为中文环境,使提示成为中文export LANG=zh_CN.GBK# 输出为中文编码export OUTPUT_CHARSET=GBKcd /cygdrive中文显示Nutch1.4安装下载地址:/dist/nutch/下载apache-nutch-1.4-bin.zip解压到指定目录,如D盘。验证Nutch1.4的安装执行:bin/nutch以上界面表示Nutch安装正常。使用Nutch爬行条件准备一:修改/cygdrive/d/apache-nutch-1.4-bin/runtime/local/conf/nutch-site.xml文件内容如下:?xml version=1.0??xml-stylesheet type=text/xsl href=configuration.xsl?!-- Put site-specific property override

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档