LabinOpenSpider天网三款爬虫对比分析.docVIP

  • 12
  • 0
  • 约1.02万字
  • 约 12页
  • 2018-04-03 发布于河南
  • 举报
LabinOpenSpider天网三款爬虫对比分析

HYPERLINK /liwenjia1981/article/details/4846668Labin、OpenSpider、天网 三款爬虫对比分析 分类: HYPERLINK /liwenjia1981/article/category/621476搜索引擎2009-11-21 11:57794人阅读评论(5)HYPERLINK javascript:void(0);收藏HYPERLINK \l report举报 Labin、OpenSpider、天网 是三款比较著名的网络爬虫,其中天网现在已经做成了分布式爬虫,据称天网在ftp搜索方面水平比较高。这三款爬虫本人都接触过,对于Labin和天网的源代码也研究过一段时间。、 Larbin: 首先,Labin采用的socket方式是 单线程非阻塞式的爬取。具体的技术实现采用 linux/unix的poll轮询接口。当Larbin读取种子网站以后,会解析出网页中的url.从源代码中来看,Larbin提取url的技术水平并不高,只是采取简单的字符串操作。然而url是各种各样的,字符串操作能否提取90%以上html网页中的url,还值得怀疑。 当被urls被提取以后,Labin建立了四个队列存取之:两个优先权队列、两个普通队列。为什么要这么做呢?我想做着可能这样想:优先权队列用作采集优先权高的

文档评论(0)

1亿VIP精品文档

相关文档