分布式爬虫.PDFVIP

  • 5
  • 0
  • 约6.51千字
  • 约 30页
  • 2017-10-02 发布于天津
  • 举报
分布式爬虫

分布式爬虫 云峰 @fengyuncrawl 2011.12.10 提纲 • 全网爬虫和垂直爬虫 • 分布式框架 • 海量数据存储 • SSD作缓存和虚拟内存 • QA 2 通用爬虫 初始url(种子) 下载页面 解析 将抽取的内容保存 缺点: 1. 噪音多 2.信息密度低,无联系 3.结构简单化 深度爬虫 增加 1.link分析,网页权重计算 2.URL权重队列 四个困难: 1.高效算法去重(bloom filter) 2.表单验证(校验码)(OCR) 3,正文抽取(vips,dom特征计算和缓存)

文档评论(0)

1亿VIP精品文档

相关文档