- 10
- 0
- 约7.18万字
- 约 38页
- 2016-10-12 发布于贵州
- 举报
Heritri体概述(转)
Heritrix源码分析(一) 包介绍之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。 想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫,这里补充下,我用的版本是1.14.3. ??? 同时欢迎加入我建的Heritrix爬虫群一起讨论学习:???
序号 包名?????????????????????????????????? 说明 1?? mons.httpclient???? 封装了apache的httpclient用于Fetch网页内容 2 mons.httpclient.cookie 封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie 3 mons.pool.impl 封装了apache的httpclient用于Fetch网页内容,还待研究 4 org.archive.crawler Heritrix程序运行的入口包,如Heritrix运行可以直接抓取 5 org.archive.crawler.admin Heritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler
您可能关注的文档
最近下载
- 5.1导数的概念及其几何意义课件(人教版).pptx VIP
- 第二节 跨学科主题学习2:应对全球环境变化 以应对全球气候变暖为例 课件 粤教粤人版地理七年级下册.ppt
- 2025至2030全球及中国丙泊酚中长链脂肪乳注射液行业细分市场及应用领域与趋势展望研究报告.docx VIP
- 新 土的颗粒分析试验报告(筛分法).xls VIP
- 温排水用海技术指南.pdf VIP
- 简易呼吸器1课件.ppt VIP
- 早产儿脑室内出血预防专家共识(2025).pptx VIP
- 试题心电图有答案.pdf VIP
- 专题03 Unit 3 Fit for life (选择必修二) (知识全梳理&考点精准练) (学生版)-2025年新高二英语暑假衔接讲练 (译林版).docx VIP
- 创维光伏培训课件.pptx
原创力文档

文档评论(0)