Python程序设计基础(微课版)09-爬虫入门-01-认识爬虫.pptxVIP

  • 1
  • 0
  • 约1.89千字
  • 约 8页
  • 2026-05-07 发布于福建
  • 举报

Python程序设计基础(微课版)09-爬虫入门-01-认识爬虫.pptx

动手学Руthоn,实践出真知!

РуthоnЗ程序设计-爬虫入门

认识爬虫

数据是21世纪极为宝贵的资源

人类社会已经进入大数据时代,大数据深刻地改变着我们的エ作和生活。随着互联网、移动互联网、社交网络、物联网等领域的迅猛发展,各种数量庞大、种类繁多、随时随地产生和更新的大数据,蕴含着前所末有的社会价值和商业价值。

大数据成为21世纪最为重要的经济资源之一。正如马云所言,末来最大的能源不是石油而是大数据。对大数据的获取、处理与分析,以及基于大数据的智能应用,已成为提高末来竞争カ的关键要素。

但如何获取这些宝贵数据呢?网络爬虫就是一种高效的信息釆集利器,利用它可以快速、准确地釆集我们想要的各种数据资源。

什么是网络爬虫?

网络爬虫(WebСrаwler)是按照一定的规则,自动地抓取互联网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动釆集所有其能够访问到的页面内容,以获取或更新这些网站的内容。

从功能上来讲,爬虫一般分为数据釆集、处理、储存З个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL。在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

爬虫带来的各类问题

网络爬虫给服务器带来了巨大的资源开销

由于爬虫访问网站的速度比人类的速度快百倍甚至千倍,给服务器带来巨大的资源开销,影响了网站给普通

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档