第10章无比强大的网络爬虫.PDFVIP

  • 2
  • 0
  • 约5.56万字
  • 约 43页
  • 2017-11-17 发布于江苏
  • 举报
第10章无比强大的网络爬虫

第10 章 无比强大的网络爬虫Heritrix Lucene 很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么强大的搜索引 擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。 网络爬虫,又被称为蜘蛛 Spider,或是网络机器人、BOT 等,这些都无关紧要,最重要的 是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix 是一个纯由Java 开发的、开源的Web 网络爬虫,用户可以使用它从网络上抓取想要 的资源。它来自于 。Heritrix 最出色之处在于它的可扩展性,开发者可以扩 展它的各个组件,来实现自己的抓取逻辑。本章就来详细介绍一下Heritrix 和它的各个组件。 10.1 Heritrix 的使用入门 要想学会使用 Heritrix ,当然首先得能把它运行起来。然而,运行Heritrix 并非一件容易的 事,需要进行很多配置。在Heritrix 的文档中对它的运行有详细的介绍,不过尽管如此,笔 者仍然花了大量时间,才将其配置好并运行成功。 10.1.1 下载和运行Heritrix Heritrix 的下载页面为:/downloads.html 。从上面可以链接到 SourceForge 的下载页面。当前Heritrix 的最新版本为1.10。 (1)在下载完Heri

文档评论(0)

1亿VIP精品文档

相关文档