- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Heritrix爬虫 使用手册概要简介Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。Heritrix最出色之处在于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。Heritrix Home Page:/获取HeritrixHeritrix的主页提供下载,下载后有2个压缩包,比如“heritrix-1.14.3.zip”和“heritrix-1.14.3-src.zip”,分别解压这两个压缩包到单独的文件夹。文件说明Heritrix-1.14.3解压得到的文件如图一所示,Heritrix所用到的工具类库都存于lib目录下,heritrix-1.10.1.jar是Heritrix的Jar包。另外,在conf目录下包含了一个很重要的文件:perties文件包含了大量与Heritrix运行相关的参数,主要针对Heritrix运行时的一些默认工具类、WebUI的启动参数以及Heritrix的日志格式进行配置。第一次运行Heritrix时,只需进行很简单的修改,为其加入WebUI的登录名和密码即可。图1运行方式通常以WebUI的方式启动Heritrix,另外还可以使用CrawlController (它是一次抓取任务的核心,决定整个抓取任务的开始和结束。位于org.archive.crawler.framework),以后台方式加载一个抓取任务,即编程式启动。在Eclipse中建立Heritrix工程项目建立在Eclipse下新建一个项目;将下载得到的两个压缩包分别解压到单独的文件夹,在本例中为“heritrix-1.14.3”和“heritrix-1.14.3-src”;(建议将这两个文件夹放在项目目录下,因为以后还要用到其中的文件。)从“heritrix-1.14.3-src”目录下的\src\java复制3个文件夹(包):org、com、st到项目中的src文件夹中;从“heritrix-1.14.3-src”目录下的\src\conf复制所有文件夹及文件到项目更目录中;从“heritrix-1.14.3-src”目录下的\src\resourses复制所有文件夹及文件到项目根目录中;从“heritrix-1.14.3”目录下复制webapps目录到项目根目录中;将“heritrix-1.14.3”或“heritrix-1.14.3-src”其中任一目录下的lib文件夹中的所有jar包添加到项目的build path中;从“heritrix-1.14.3-src”目录下的\src\conf复制profiles文夹到Eclipse工作空间所在分区的根目录。将修改过参数的Hperties文件复制到项目的src文件夹中。建立完成的工程如图2所示。图2Hperties参数配置主要更改部分如红色加粗标记部分所示:############################################################################### HERITRIX PROPERTIES############################################################################### Properties with prefixes heritrix., org.archive., or system. prefix # get copied into Sperties on startup so available via # System.getProperties. (For system. properties, that prefix is stripped.# (See Heritrix.loadProperties()). # Version is filled in by the maven.xml pregoal. It copies here the project# currentVersion property.heritrix.version = 1.14.3# Location of the heritrix jobs dir = jobs# Default commandline startup values.# Below values are used if unspecified on the command line.heritrix.cmdline.admin = admin:adminheritrix.cmdline.port = 8089heritrix.cmdline.run = falseheritrix.cmdline.nowui = fals
您可能关注的文档
- Fluent小规模流动混合分析 Interfacial Analysis of Micro-Scale Flow Mixing.ppt
- Fluent-循环流化床数值模拟.ppt
- Fluent中的冷凝器模型.ppt
- FMEA潜在失效模式及后果分析培训教程.ppt
- FT2232制作仿真器.doc
- GA799挠性剑杆织机机件略图英文.doc
- Gatsby’s American Dream.doc
- GC-7890 系列气相色谱仪.doc
- GCT考试历年真题.doc
- GIS原理 地理信息系统应用实例.ppt
- CNAS-CL63-2017 司法鉴定-法庭科学机构能力认可准则在声像资料鉴定领域的应用说明.docx
- 12J7-3 河北《内装修-吊顶》.docx
- 12N2 河北省12系列建筑标准设计图集 燃气(油)供热锅炉房工程.docx
- 内蒙古 12S8 排水工程 DBJ03-22-2014.docx
- 山西省 12S10 12系列建筑标准设计 管道支架、吊架.docx
- 16J601-木门窗标准图集.docx
- 12J8 河北省12系列《 楼梯》.docx
- CNAS-GL37 2015 校准和测量能力(CMC)表示指南.docx
- CNAS-RL02-2016 能力验证规则.docx
- 津02SJ601 PVC塑料门窗标准.docx
文档评论(0)