基于python的分布式网络爬虫设计.docVIP

  • 6
  • 0
  • 约3.07万字
  • 约 33页
  • 2023-08-05 发布于湖北
  • 举报
PAGE III 基于python的分布式网络爬虫设计 摘要 网络爬虫主要用来进行网上各种资源的收集。是一种按照预先设定的逻辑和规则,不断的对网页信息和数据进行爬取的程序或者脚本。随着技术方面不断的发展,网络爬虫也已经变得更加成熟,用途也更加广泛。搜索引擎就是爬虫的一种具体应用体现,人们通过任何一个搜索引擎能可以很快的获得他们所需要的数据和信息。 分布式爬虫中的一台计算机负责抓取连接,其他计算机负责下载存储,以达到高效爬取的目的。采用分布式爬虫可以提高数据爬取效率,从而降低成本,提高收益。不论对个人或者集体,分布式爬虫都是抓取信息的高效手段。 在数据爆炸的大环境下,对爬虫

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档