nutch 入门学习.pdfVIP

  • 7
  • 0
  • 约6.74万字
  • 约 61页
  • 2017-09-06 发布于天津
  • 举报
nutch 入门学习

Nutch 入门学习 北京邮电大学 李阳 Nutch 入门学习 目 录 1. nutch简介1 1.1 什么是nutch 1 1.2 研究nutch的原因1 1.3 nutch的目标1 1.4 nutch VS lucene 2 2. nutch的安装与配置3 2.1 JDK 的安装与配置3 2.2 nutch 的安装与配置5 2.3 tomcat 的安装与配置5 3. nutch初体验7 3.1 爬行企业内部网7 3.1.1 配置nutch 7 3.1.2 配置tomcat 8 3.1.3 执行抓取命令9 3.1.4 测试结果11 3.1.5 Intranet Recrawl 13 3.2 爬行全网18 3.2.1 nutch数据集的基本组成:18 3.2.2 爬行"官方"网址18 3.2.3 爬行中文网址22 4. nutch基本原理分析23 4.1 nutch 的基本组成23 4.2 nutch工作流程23 5. nutch工作流程分析25 5.1 爬虫25 5.1.1 工作策略25 5.1.2 工作流程分析25 5.1.3 其它27 5.2 索引27 5.2.1 索引主要过程27 5.2.2 工作流程分析28 5.2.3 倒排索引(inverted index) 29 5.2.4 其它29 5.3 搜索29 5.4 分析30 5.5 nutch的其他一些特性31 6. nutch分析方法和工具33 6.1 Crawldb33 6.2 Linkdb 35 6.3 Segments 35 6.4 Index 39 7. nutch分布式文件系统41 2007-8-26 北京邮电大学-李阳 Nutch 入门学习 7.1 概述41 7.2 MapReduce 41 7.3 文件系统语法42 7.4 文件系统设计42 7.5 系统的可用性43 7.6 Nutch文件系统工作架构 43 8. nutch应用45 8.1 修改源码45 8.2 插件机制plugin 45 8.2.1 什么是plugin45 8.2.2 使用plugin 的好处45 8.2.3 plugin工作原理46 8.2.4 编写plugin 47 8.3 API接口53 8.3.1 使用Nutch API 53 8.3.2 使用OpenSearch API 55 8.4 nutch的应用前

文档评论(0)

1亿VIP精品文档

相关文档