Heritri整体概述(转).docVIP

  • 8
  • 0
  • 约6.7万字
  • 约 38页
  • 2016-11-28 发布于贵州
  • 举报
Heritri整体概述(转)

Heritrix源码分析(一) 包介绍之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。 想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫,这里补充下,我用的版本是1.14.3. ??? 同时欢迎加入我建的Heritrix爬虫群一起讨论学习: ??? 序号 包名?????????????????????????????????? 说明 1?? mons.httpclient???? 封装了apache的httpclient用于Fetch网页内容 2 mons.httpclient.cookie 封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie 3 mons.pool.impl 封装了apache的httpclient用于Fetch网页内容,还待研究 4 org.archive.crawler Heritrix程序运行的入口包,如Heritrix运行可以直接抓取 5 org.archive.crawler.admin Heritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler

文档评论(0)

1亿VIP精品文档

相关文档