《Python网络爬虫》课件第1单元-爬取静态网页.pptx

下载文档

0
0
约1.17万字
约 76页
2025-03-01 发布于山东
举报
版权申诉
保障服务

《Python网络爬虫》课件第1单元-爬取静态网页.pptx

1、本文档共76页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python网络爬虫第一单元爬取静态网页

教学概述概述在网站设计中，纯粹HTML（标准通用标记语言下的一个应用）格式的网页通常被称为“静态网页”，静态网页是标准的HTML文件，它的文件扩展名是.htm、.html，可以包含文本、图像、声音、FLASH动画、客户端脚本和ActiveX控件及JAVA小程序等。静态网页是网站建设的基础，早期的网站一般都是由静态网页制作的。静态网页是相对于动态网页而言，是指没有后台数据库、不含程序和不可交互的网页。静态网页相对更新起来比较麻烦，适用于一般更新较少的展示型网站。静态网页有时也被称为平面页。静态网页面通常是超文本标记语言文档存储为文件在文件系统里头，并且可以通过HTTP访问网络服务器。

第一单元爬取静态网页0203爬取天气预报数据爬取百度搜索爬取汽车销售分页数据01

情境一：爬取天气预报数境概述知识准备案例讲解总结

PART01情境概述情境一：爬取天气预报数据

情境概述学习情境描述教学情境描述：通过学习教师讲授相关Requests、BeautifulSoup4、CSV技术的应用，学习如何在实际静态网页数据采集中应用Requests获取网页源数据；使用BeautifulSoup4根据网页源代码提取目标数据；使用CSV将程序过程数据持久化存储于本地。这就是一种最简单的三步静态网页数据爬虫操作步骤和应用。关键知识点：爬虫的原理、HTTP请求原理、Python库环境管理、Requests网络交互、BeautifulSoup4数据结构化解析、IO流数据处理、CSV文件数据操作。关键技能点：Python库环境安装、Requests请求源数据、BeautifulSoup4数据解析、CSV本地文件数据存储。情境一：爬取天气预报数据

情境概述本节课的学习目标正确理解爬虫的原理。正确掌握Http网络交互及携带信息流程。正确掌握Python模块库（Requests、BeautifulSoup4、CSV）安装管理应用。能根据实际网页源，分析网络爬虫请求限制。能根据实际网页源，使用Requests获取源代码数据。能根据HTML源代码结构，使用BeautifulSoup4获取对应节点对象。能使用BeautifulSoup4获取对应节点相关属性及内容数据。能使用CSV模块，存储程序过程中的数据到本地文件。情境一：爬取天气预报数据

情境概述本节课的任务书完成通过PIP命令安装及管理Requests、BeautifulSoup4、CSV库。完成通过Requests获取中国天气网华北地区天气预报网页源代码。完成通过BeautifulSoup4解析结构化网页，并获取对应城市的各类天气数据。完成通过CSV将解析到的各城市天气数据本地结构化存储。情境一：爬取天气预报数据

PART02知识准备情境一：爬取天气预报数据

知识准备引导问题了解什么是网络爬虫，说明网络爬虫相关原理。了解网络爬虫的流程，并理解各流程都有什么意义。网络爬虫前我们需要准备什么？如何获取网页源代码？如何解析网页源数据？如何本地化存储数据？情境一：爬取天气预报数据

知识准备知识点介绍RequestsBeautifulSoup4CSV情境一：爬取天气预报数据

知识准备Requests情境一：爬取天气预报数据Requests框架介绍RequestsisanelegantandsimpleHTTPlibraryforPython,builtforhumanbeings.RequestsallowsyoutosendHTTP/1.1requestsextremelyeasily.There’snoneedtomanuallyaddquerystringstoyourURLs,ortoform-encodeyourPOSTdata.Keep-aliveandHTTPconnectionpoolingare100%automatic,thankstourllib3.Requests是一个基于Apache2协议开源的PythonHTTP库，号称是“为人类准备的HTTP库”。Requests有如特点：

知识准备情境一：爬取天气预报数据Keep-Alive连接池国际化域名和URL带持久Cookie的会话浏览器式的SSL认证自动内容解码基本/摘要式的身份认证优雅的key/valueCookie自动解压Unicode响应体HTTP(S)代理支持文件分块上传流下载连接超时分块请求支持.netrc

知识准备Requests环境安装情境一：爬取天气预报数据pipinstallReques

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《Python网络爬虫》课件第1单元-爬取静态网页.pptx