- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
/art???Heritrix?简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。Heritrix的操作模型:从模型中可以看到,利用Heritrix我们可以轻松从互联网上获取信息并将它们全部存储下来,然后可以任意的访问获取到的网页信息并可以查看报告。?Heritrix的整体结构简图如下:它的工作流程是一个循环,具体流程是: 1?在预定的URI中选择一个。 2?从选择的URI的网址下载远程文件 3?分析,归档下载到的内容 4?从分析到的内容里面选择感兴趣的URI。加入预定队列。 5?标记已经处理过的URI?在大概的了解了Heritrix及它的工作机制之后,我们就可以开始Heritrix的使用了。?2.???Heritrix?的配置与使用?1)????安装与配置从官方网站/下载最新版本的Heritrix运行包,解压到一个文件夹内。其中,Heritrix所用到的工具类库都存于lib下,另外,在Heritrix目录下有一个conf目录,其中包含了一个很重要的文件:perties在?perties中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码。在heritrix.cmdline.admin=后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin?。其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码。新建一个文件Heritrix.cmd?作为启动Heritrix的命令文件,在文件内写入:(假设文件夹路径为D:\heritrix)?运行上述脚本,在浏览器输入http://localhost:8080/,输入之前设置的用户名密码,即可进入Heritrix管理页面。?2)????新建抓取任务(1)???????单击菜单栏上的“Jobs”标签,就可以进入任务创建页面。如下图所示:?(2)???????在任务创建页面中,有4种创建任务的方式,具体含义如下:??Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表??Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。??Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。??With defaults:这个最简单,表示按默认的配置来生成一个任务。?(3)???????单击With defaults链接,创建一个新的抓取任务。(4)???????在新建任务的名称上,填入任务名称。在Description中随意填入字符,然后再在seeds框中,填入待抓取的起始网址。如下图所示:?(5)???????单击“Modules”按钮,就进入了配置抓取时的处理链的页面。在倒数第三项?Select Writers 内删除默认的org.archive.crawler.writer.ARCWriterProcess”,加?org.archive.crawler.writer.MirrorWriterProcessor,这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成ARC存档文件。如下图:?(6)???????单击“Settings”?按钮,进入了属性设置的页面。在属性设置页面上有非常多的输入域,Heritrix在抓取网页时,这些域是用来对的各个组件的值进行预设。由于页面上的内容非常多,使用者可能无法全部了解它们的作用。所以Heritrix提供了一个辅助功能,来在最大程度上让使用者了解每个参数的含义。在每个属性的右侧都有一个小问号,当单击问号时,就会弹出一个Javascript的Alert提示框,上面介绍了当前属性的作用。当在第一次使用Heritrix时,所需要设置的参数并不多,以默认设置为主。但有一些参数是必须在第一次使用时就设置好的,就是HTTP-Header这个属性域。如下图所示,红色框内是修改前后对照。其中“user-agent”中的“PROJE
原创力文档


文档评论(0)