- 20
- 0
- 约4.97万字
- 约 52页
- 2017-09-21 发布于贵州
- 举报
第2章
分布式爬虫
随着互联网技术的发展以及风起云涌的云计算浪潮。爬虫技术也逐渐向着分布式方向发展。比如,Google的爬虫就是使用成千上万台小型机和微机进行合作,完成分布式抓取工作的。分布式技术不仅可以解决IT运营的成本,还可以解决爬虫效率问题,尤其是当今云计算的热潮,更把分布式推向了极致。
2.1 设计分布式爬虫
把抓取任务分布到不同的节点主要是为了抓取性能与可扩展性,也可以使用物理分布的爬虫系统,让每个爬虫节点抓取靠近它的网站。例如,北京的爬虫节点抓取北京的网站,上海的爬虫节点抓取上海的网站,电信网络中的爬虫节点抓取托管在电信的网站,联通网络中的爬虫节点抓取托管在联通的网站。
2.1.1 分布式与云计算
分布式技术是一种基于网络的计算机处理技术,与集中式相对应。由于个人计算机的性能得到极大提高及其使用的普及,使分布到网络上的所有计算机成为可能。分布计算是和集中式计算相对立的概念,分布式计算的数据可以分布在很大区域。
分布式网络中,数据的存储和处理都是在本地工作站上进行的。数据输出可以打印,也可保存在软盘上。通过网络得到更快、更便捷的数据访问。因为每台计算机都能够存储和处理数据,所以不要求服务器功能十分强大,其价格也就不必过于昂贵。这种类型的网络可以适应用户的各种需要,同时允许他们共享网络的数据、资源和服务。在分布式网络中使用
您可能关注的文档
- 行政管理制度中相关表格.doc
- 药学本科毕业论文.doc
- 移动充值卡密加密技术毕业论文.doc
- 移动通信系统论文.doc
- 应用化工技术毕业论文硫磺制酸转化工段工艺设计.doc
- 应用化学毕业设计-萘-甲苯、二甲苯溶液的粘度测定与关联.doc
- 有源音响毕业论文设计.doc
- 足球机器人无线通信子系统的研究.doc
- 2013计算机应用本科毕业设计范本正本.doc
- Ch4-光纤通信系统-201006.pdf
- 小学数学六年级下册数学广角抽屉原理教学应用.docx
- 某APP童谣含隐晦成人隐喻致家长投诉的内容审核盲区分析_2026年5月.docx
- 小学语文提问策略在四年级阅读教学中的实施.docx
- 电流树状Lichtenberg图形制作.docx
- 急诊护理健康教育创新.pptx
- 高校学生宿舍太阳能热水系统节能效益与改造研究_2026年3月.docx
- “失眠日记”在学生中的记录行为与干预效果研究_2026年3月.docx
- 性别平等“角色互换”体验对男性大学生共情能力提升实测_2026年1月.docx
- 海洋保护区对生物多样性的保护作用研究_2026年5月.docx
- 人工智能辅助招聘中的算法公平性评测与偏见缓解策略_2026年3月.docx
原创力文档

文档评论(0)