- 4
- 0
- 约1.28万字
- 约 11页
- 2017-01-03 发布于重庆
- 举报
/FengYan/archive/2012/11/27/2788369.html#2566041
? ZeroCrawler V0.1是一只简单的多线程爬虫,其基本架构如下:
? ? ? 整个程序是这样运作的:Scheduler不断从Queue取出URL,如果发现可用的爬虫(空闲线程),那么就将URL分给一只爬虫。然后爬虫完成下载网页,抽取URL,保存网页的工作后就回归Scheduler(变回空闲线程)。直到Queue没有待爬取的URL,并且所有爬虫都空闲下来,就停止程序。
? ? ? Scheduler的主要工作就是建立线程池,从Queue中取出URL,分配URL给线程。容易出错的地方是退出条件。如果只是判断Queue为空就退出是不行的。因为这时可能还有爬虫在工作中,而它可能提取到新的URL加到Queue中。所以退出条件应该是Queue为空且线程池的线程全部空闲。Scheduler实现如下:
View Code
public static void Crawl(String url, String savePath) {
int cnt = 1;
long startTime = System.currentTimeMillis();
AtomicInteger numberOf
您可能关注的文档
- 一个中小企业的绩效管理体系..doc
- 一个与奇偶性有关的数学魔术..doc
- 一个人时4成女人选择找性伙伴3成自己解决..doc
- 一个优秀交易员必备的三个素质..docx
- 我的电力电子技术实验报告..docx
- 一个人物精雕油泥雕塑的制作全过程..doc
- 一个优秀外贸业务员的分享----各国买家特点..doc
- 一个信息与计算科学研究生的找工作经历..doc
- 一个关于编制的问题..doc
- 一个倾斜回转工作台的角和位置固有的五轴偏差识别的同时四轴控制运动的加工中心外文翻译..doc
- 2026年智慧健康管理系统创新报告.docx
- 河北衡水市武强中学2025-2026学年高二下学期4月期中物理试题(含解析).docx
- 2026年人工智能行业智能老年防走失定位器创新报告.docx
- 2026年低空经济飞行器量子技术应用创新报告.docx
- 2026年农业智能农业智能育种创新报告.docx
- 河北省保定市莲池区保定市第一中学2025-2026学年高二下学期期中考试生物试题(含解析).docx
- 2026年智慧城市电子站牌充电创新报告.docx
- 河北省邯郸市平恩中学等校2025-2026学年八年级期中考试英语试题(含解析).docx
- 2026年供应链创新技术应用报告.docx
- 2026年体育智能赛事管理系统支付系统创新报告.docx
原创力文档

文档评论(0)