- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Nutch version 0.8 安装向导 Nutch version 0.8 安装向导1、必要的条件1.1 Java 1.4或1.4以上版本。操作系统推荐用Linux(Sun或IBM的都可以)。记得在环境变量中设置变量NUTCH_JAVA_HOME=你的虚拟机地 址,例如,本人将jdk1.5安装在c:\jdk1.5文件夹下,所以本人的设置为NUTCH_JAVA_HOME=c:\jdk1.5(此为win32 环境下的设置方法)。1.2 服务器端推荐使用Apache’s Tomcat 4.x或该版本以上的Tomcat。1.3 当要在win32安装Nutch时,请安装cygwin软件,以提供Linux的shell支持。1.4 安装Nutch需要消耗G字节的磁盘空间,高速的连接并要花费一个小时左右的时间等等。2、从这开始2.1 首先,你必须获得Nutch源码的一个拷贝。你可以从网址:/nutch/release/ 上下载Nutch的发行版,解开下载的文件包即可。或者通subversion获得最新的源码并且通过Ant工具创建Nutch。2.2 上述步骤完成以后,你可以通过下面这个命令,试试是否安装成功。在Nutch所在的目录下,输入??bin/nutch如果显示了一个有关Nutch命令脚本的文档,那么恭喜你,你已经向成功迈出了重要的一步。2.3 现在,我们可以准备为我们的搜索引挚去“爬行(crawl)”资料。爬行(crawl)有两种方法:2.3.1 用crwal命令实现内部网的爬行2.3.2 整个web网的爬行,除了上面的crwal命令外,我们需要用得一些更为底层的命令以实现更为强大的功能,如inject, generate, fetch以及updatedb等。3、内部网爬行(测试未通过)内部网爬行适合用于具有百万级别的web网站。3.1 内部网:配置要配置内部网爬行,你必需做如下几项工作:3.1.1 在nutch所在的文件夹下建立一个包含纯文本文件的根文件夹urls。例如,为了爬行nutch站点,你可以建立一个nutch文本文件,该文件中仅仅 包含nutch的主页。所有有关Nutch的其它页面你将从这个页面搜索得到。这样你在urls/nutch文件中将包含如下的内容:/nutch/3.1.2 接着你要去编辑nutch文件夹下的conf/crawl-urlfilter.txt文件,将该文件中MY.DOMAIN.NAME替换成你要去爬行的 域。例如,如果你想把爬行限制在域,你就可用替换上述文件中的MY.DOMAIN.NAME。替换后如下:+^http://([a-z0-9]*\.)*/上述语句的意思包含在域中的任何url。3.2 内部网:运行crawl一旦配置好后,运行crawl是一件简单的事情。只要使用crawl命令。这个命令包含如下这些先项:-dir??dir指定将爬行到信息要存储的目录-threads threads决定了要同时运行的线程数-depth depth指出从根页面往下要爬行的深度-topN topN决定了在每一级的深度上要搜索的最大页面数例如,一个典型的命令如下:bin/nutch crawl urls -dir crawl -depth 3 -topN 50一旦命令执行结束,就可以跳到后面的搜索部分(见5)。4、全网爬行全网爬行设计去处理非常大量的爬行,它可能要花几个星期的时间才能完成,并起需要多台电脑来运行它。4.1 下载 /rdf/content.rdf.u8.gz 然后解压 解压命令为: gunzip content.rdf.u8.gz 4.2 创建目录 mkdir dmoz 4.3每搜索5000条URL记录选择一个存进urls文件: bin/nutch??org.apache.nutch.tools. DmozParser content.rdf.u8 -subset 5000 dmoz/urls 4.4 初始化crawldb: bin/nutch inject crawl/crawldb dmoz 4.5 从crawldb生成fetchlist: bin/nutch generate crawl/crawldb crawl/segments 4.6 fetchlist放置在重新创造的段目录,段目录根据指定的时间创建,我们保存这段变量s1: s1=`ls -d crawl/segments/2* | tail -1` echo $s1 显示结果如:crawl/segments/2006******* /*号部分表示是月日时的数字,如20060703150028 4.7 运行这段: bin/nutch fetch $s1
您可能关注的文档
- MATLAB 考试试题 考前冲刺.doc
- MATLAB 上机 习题及答案.doc
- Matlab 上机题及答案.doc
- matlab 微分方程边值问题.doc
- matlab(实验5).doc
- Matlab备考资料.doc
- matlab第一次实验题目(任选一题)及实验报告模板.doc
- matlab简介(解常微分方程绘制函数图像).doc
- matlab解题实例.doc
- matlab开卷试题.doc
- 2025年无人机低空医疗物资投放社会效益报告.docx
- 2025年再生塑料行业包装回收利用产业链重构研究.docx
- 《AI眼镜周边产品市场机遇:2025年终端销售与需求增长洞察》.docx
- 2025年坚果加工行业深加工技术突破与市场拓展策略报告.docx
- 2025年通信芯片行业技术竞争与未来趋势报告.docx
- 《2025年生鲜电商配送冷链事故分析与预防措施》.docx
- 《商业航天融资新趋势2025民营卫星企业资本涌入估值分析市场动态》.docx
- 2025年能源绿色健康行业创新技术与市场应用报告.docx
- 2025年无人机低空医疗救援通信方案分析报告.docx
- 2025年烹饪机器人行业市场集中度分析报告.docx
原创力文档


文档评论(0)