自己动手写网络爬虫02章.docVIP

  • 20
  • 0
  • 约4.97万字
  • 约 52页
  • 2017-09-21 发布于贵州
  • 举报
第2章 分布式爬虫 随着互联网技术的发展以及风起云涌的云计算浪潮。爬虫技术也逐渐向着分布式方向发展。比如,Google的爬虫就是使用成千上万台小型机和微机进行合作,完成分布式抓取工作的。分布式技术不仅可以解决IT运营的成本,还可以解决爬虫效率问题,尤其是当今云计算的热潮,更把分布式推向了极致。 2.1 设计分布式爬虫 把抓取任务分布到不同的节点主要是为了抓取性能与可扩展性,也可以使用物理分布的爬虫系统,让每个爬虫节点抓取靠近它的网站。例如,北京的爬虫节点抓取北京的网站,上海的爬虫节点抓取上海的网站,电信网络中的爬虫节点抓取托管在电信的网站,联通网络中的爬虫节点抓取托管在联通的网站。 2.1.1 分布式与云计算 分布式技术是一种基于网络的计算机处理技术,与集中式相对应。由于个人计算机的性能得到极大提高及其使用的普及,使分布到网络上的所有计算机成为可能。分布计算是和集中式计算相对立的概念,分布式计算的数据可以分布在很大区域。 分布式网络中,数据的存储和处理都是在本地工作站上进行的。数据输出可以打印,也可保存在软盘上。通过网络得到更快、更便捷的数据访问。因为每台计算机都能够存储和处理数据,所以不要求服务器功能十分强大,其价格也就不必过于昂贵。这种类型的网络可以适应用户的各种需要,同时允许他们共享网络的数据、资源和服务。在分布式网络中使用

文档评论(0)

1亿VIP精品文档

相关文档