第10章无比强大的网络爬虫Heritrix.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章无比强大的网络爬虫Heritrix

第 10章 无比强大的网络爬虫 Heritrix Lucene 很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么强大的搜索引 擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫 Spider。 网络爬虫,又被称为蜘蛛 Spider,或是网络机器人、BOT 等,这些都无关紧要,最重要的 是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由 Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要 的资源。它来自于 。Heritrix最出色之处在于它的可扩展性,开发者可以扩 展它的各个组件,来实现自己的抓取逻辑。本章就来详细介绍一下 Heritrix和它的各个组件。 10.1 Heritrix 的使用入门 要想学会使用 Heritrix,当然首先得能把它运行起来。然而,运行 Heritrix 并非一件容易的 事,需要进行很多配置。在 Heritrix的文档中对它的运行有详细的介绍,不过尽管如此,笔 者仍然花了大量时间,才将其配置好并运行成功。 10.1.1 下载和运行 Heritrix Heritrix 的下载页面为: /downloads.html。从上面可以链接到 SourceForge的下载页面。当前 Heritrix的最新版本为 1.10。 (1)在下载完 Heritrix的完整开发包后,解压到本地的一个目录下,如图 10-1所示。 图10-1 Heritrix的目录结构 其中,Heritrix所用到的工具类库都存于 lib下,heritrix-1.10.1.jar是 Heritrix的 Jar包。另外, 在 Heritrix目录下有一个 conf目录,其中包含了一个很重要的文件:perties。 (2)在 perties中配置了大量与 Heritrix运行息息相关的参数,这些参数主要是配 置了 Heritrix运行时的一些默认工具类、WebUI的启动参数,以及 Heritrix的日志格式等。 当第一次运行 Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码,如图 10-2 所示。 图10-2 修改Heritrix的WebUI的登录名和密码 其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码, 图中所示只不过延续了 Heritrix以前版本中默认的用户名和密码而已。 (3)在设置完登录名和密码后,就可以开始运行 Heritrix了。Heritrix有多种方式启动,例 如,可以使用 CrawlController,以后台方式加载一个抓取任务,即为编程式启动。不过最常 见的还是以WebUI的方式启动它。 (4)Heritrix的主类为 org.archive.crawler.Heritrix,运行它,就可以启动 Heritrix。当然,在 运行它的时候,需要为其加上 lib目录下的所有 jar包。以下是笔者在命令行中启动 Heritrix 时所使用的批处理文件,此处列出,仅供读者参考(笔者的 Heritrix目录是位于 E盘的根目 下,即 E:\heritrix)。 代码 10.1 java -Xmx512m -Dheritrix.home=e:\\heritrix -cp E:\\heritrix\\lib\\commons-codec-1.3.jar;E:\\heritrix\\lib\\commons-collect ions-3.1.jar;E:\\heritrix\\lib\\dnsjava-1.6.2.jar;E:\\heritrix\\lib\\poi-scr atchpad-2.0-RC1jar;E:\\heritrix\\lib\\commons-logging-1.0.4.jar;E: \\heritrix\\lib\\commons-httpclient-3.0.1.jar;E:\\heritrix\\lib\\commons-cli -1.0.jar;E:\\heritrix\\lib\\mg4j-1.0.1.jar;E:\\heritrix\\lib\\javaswf-CVS-SN APSHOT-1.jar;E:\\heritrix\\lib\\bsh-2.0b4.jar;E:\\heritrix\\lib\\servlet-tom cat-4.1.30.jar;E:\\heritrix\\lib\\junit-3.8.1.jar;E:\\heritrix\\lib\\jasper- compiler-tomcat-4.1.30.jar;E:\\heritrix\\lib\\commons-lang-2.1.jar;

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档