- 5
- 0
- 约6.51千字
- 约 30页
- 2017-10-02 发布于天津
- 举报
分布式爬虫
分布式爬虫
云峰
@fengyuncrawl
2011.12.10
提纲
• 全网爬虫和垂直爬虫
• 分布式框架
• 海量数据存储
• SSD作缓存和虚拟内存
• QA
2
通用爬虫
初始url(种子)
下载页面
解析
将抽取的内容保存
缺点:
1. 噪音多
2.信息密度低,无联系
3.结构简单化
深度爬虫
增加
1.link分析,网页权重计算
2.URL权重队列
四个困难:
1.高效算法去重(bloom filter)
2.表单验证(校验码)(OCR)
3,正文抽取(vips,dom特征计算和缓存)
您可能关注的文档
最近下载
- 义务教育优质均衡发展质量监测八年级综合试卷测试题及答案.docx VIP
- 新解读(2025)《HJ T342-2007水质 硫酸盐的测定 铬酸钡分光光度法(试行)》.pptx VIP
- 实例要素式强制执行申请书(申请执行用).pdf VIP
- 风力发电机叶片雷击损伤的损坏鉴定报告.doc VIP
- 2025年度国家体育总局体育社会科学研究项目立项名单.docx VIP
- GB50303-2015 建筑电气工程施工质量验收规范.docx
- JTJ036-1998 公路改性沥青路面施工技术规范.pdf VIP
- 基于循迹模型的智能小车运动控制仿真研究.docx VIP
- 年产1000吨对氨基苯甲酸生产工艺设计毕业设计(1).doc VIP
- 新解读(2025)《HJ T343-2007水质 氯化物的测定 硝酸汞滴定法(试行)》.pptx VIP
原创力文档

文档评论(0)