- 8
- 0
- 约1.19万字
- 约 25页
- 2017-02-04 发布于江苏
- 举报
CrawlController整个抓取过程的总控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获取URI,传递给线程池(ToePool)中的ToeThread处理 ? Frontier为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作。Frontier负责确定下一个将被处理的URI,负责访问的均衡处理,避免对某一web服务器造成太大的压力。当一个URI被爬行完,它随同新发现的URIs被送回Frontier来安排进行后续crawling. ? next(int timeout):为处理线程提供一个链接.Heritrix的所有处理线程(ToeThread)都是通过调用该方法获取链接的. schedule(CandidateURI caURI):调度待处理的链接. finished(CrawlURI cURI):完成一个已处理的链接. ToeThreadHertirix为多线程工作方式,每个ToeThread控制一个URI。ToeThread负责向Frontier请求一个新的URI并发派给相应的处理器,然后再去请求下一个URI。 ? Processors相关的处理器被编制到一个处理器链中。每条处理器链会对一个由ToeThread送来的URI进行一系列的处理。URI在一个链条中的传递过程是由ToeThread负责完成的。一个处理器
您可能关注的文档
最近下载
- 地下防水工程质量验收规范(最新版).docx VIP
- 第五单元:旋转及旋转问题“小题狂练”专项练习-2023-2024学年五年级数学下册典型例题系列(解析版)人教版.docx VIP
- SY_T 5029-2013抽油杆塞规环规.PDF VIP
- 2026-2030中国商用密码产品市场供需发展趋势与未来供需规模预测研究报告.docx
- 水利工程施工组织设计完整版 .pdf VIP
- 2026年国企统计分析岗位考核试题及答案.docx VIP
- 九宫格、回字格、米字格楷体练字模版-内容可修改.doc VIP
- 智能机器人-智能科学.PPT VIP
- led显示屏安装实施施工方案.docx VIP
- 炼钢工艺流程及典型案例介绍 PPT.pptx VIP
原创力文档

文档评论(0)