heritrix系统使用.pptVIP

  • 8
  • 0
  • 约1.19万字
  • 约 25页
  • 2017-02-04 发布于江苏
  • 举报
CrawlController整个抓取过程的总控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获取URI,传递给线程池(ToePool)中的ToeThread处理 ? Frontier为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作。Frontier负责确定下一个将被处理的URI,负责访问的均衡处理,避免对某一web服务器造成太大的压力。当一个URI被爬行完,它随同新发现的URIs被送回Frontier来安排进行后续crawling. ? next(int timeout):为处理线程提供一个链接.Heritrix的所有处理线程(ToeThread)都是通过调用该方法获取链接的. schedule(CandidateURI caURI):调度待处理的链接. finished(CrawlURI cURI):完成一个已处理的链接. ToeThreadHertirix为多线程工作方式,每个ToeThread控制一个URI。ToeThread负责向Frontier请求一个新的URI并发派给相应的处理器,然后再去请求下一个URI。 ? Processors相关的处理器被编制到一个处理器链中。每条处理器链会对一个由ToeThread送来的URI进行一系列的处理。URI在一个链条中的传递过程是由ToeThread负责完成的。一个处理器

文档评论(0)

1亿VIP精品文档

相关文档