Nutch 使用总结.docVIP

  • 5
  • 0
  • 约1.06万字
  • 约 10页
  • 2017-11-23 发布于河南
  • 举报
Nutch 使用总结

Nutch?是一个开源Java?实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 ?Nutch使用方法简介:?/pengpengfly/archive/2008/09/29/2994664.aspx nutch1.2 eclipse tomcat6.0 配置:/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.html Nutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意的问题,还分析了部分源代码。很好的文章 Nutch 目录结构 bin:用于命令行运行的文件; conf:Nutch的配置文件 lib:一些运行所需要的jar文件; plugins:存放相应的插件; src:Nutch的所有源文件; webapps:web运行相关文件; nutch-0.9.war是 Nutch所提供的基于Tomcat的应用程序包。 Nutch工作流程 1. 将起始 URL 集合注入到 Nutch 系统之中。 2. 生成片段文件,其中包含了将要抓取的 URL 地址。 3. 根据URL地址在互联网上抓取相应的内容。 4. 解析所抓取到的网页,并分析其中的文本和数据。 5. 根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。

文档评论(0)

1亿VIP精品文档

相关文档