网站大量收购独家精品文档,联系QQ:2885784924

《Python网络爬虫》 课件 第1单元-爬取静态网页.pptx

《Python网络爬虫》 课件 第1单元-爬取静态网页.pptx

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python网络爬虫第一单元爬取静态网页

教学概述概述在网站设计中,纯粹HTML(标准通用标记语言下的一个应用)格式的网页通常被称为“静态网页”,静态网页是标准的HTML文件,它的文件扩展名是.htm、.html,可以包含文本、图像、声音、FLASH动画、客户端脚本和ActiveX控件及JAVA小程序等。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态网页是相对于动态网页而言,是指没有后台数据库、不含程序和不可交互的网页。静态网页相对更新起来比较麻烦,适用于一般更新较少的展示型网站。静态网页有时也被称为平面页。静态网页面通常是超文本标记语言文档存储为文件在文件系统里头,并且可以通过HTTP访问网络服务器。

第一单元爬取静态网页0203爬取天气预报数据爬取百度搜索爬取汽车销售分页数据01

情境一:爬取天气预报数境概述知识准备案例讲解总结

PART01情境概述情境一:爬取天气预报数据

情境概述学习情境描述教学情境描述:通过学习教师讲授相关Requests、BeautifulSoup4、CSV技术的应用,学习如何在实际静态网页数据采集中应用Requests获取网页源数据;使用BeautifulSoup4根据网页源代码提取目标数据;使用CSV将程序过程数据持久化存储于本地。这就是一种最简单的三步静态网页数据爬虫操作步骤和应用。关键知识点:爬虫的原理、HTTP请求原理、Python库环境管理、Requests网络交互、BeautifulSoup4数据结构化解析、IO流数据处理、CSV文件数据操作。关键技能点:Python库环境安装、Requests请求源数据、BeautifulSoup4数据解析、CSV本地文件数据存储。情境一:爬取天气预报数据

情境概述本节课的学习目标正确理解爬虫的原理。正确掌握Http网络交互及携带信息流程。正确掌握Python模块库(Requests、BeautifulSoup4、CSV)安装管理应用。能根据实际网页源,分析网络爬虫请求限制。能根据实际网页源,使用Requests获取源代码数据。能根据HTML源代码结构,使用BeautifulSoup4获取对应节点对象。能使用BeautifulSoup4获取对应节点相关属性及内容数据。能使用CSV模块,存储程序过程中的数据到本地文件。情境一:爬取天气预报数据

情境概述本节课的任务书完成通过PIP命令安装及管理Requests、BeautifulSoup4、CSV库。完成通过Requests获取中国天气网华北地区天气预报网页源代码。完成通过BeautifulSoup4解析结构化网页,并获取对应城市的各类天气数据。完成通过CSV将解析到的各城市天气数据本地结构化存储。情境一:爬取天气预报数据

PART02知识准备情境一:爬取天气预报数据

知识准备引导问题了解什么是网络爬虫,说明网络爬虫相关原理。了解网络爬虫的流程,并理解各流程都有什么意义。网络爬虫前我们需要准备什么?如何获取网页源代码?如何解析网页源数据?如何本地化存储数据?情境一:爬取天气预报数据

知识准备知识点介绍RequestsBeautifulSoup4CSV情境一:爬取天气预报数据

知识准备Requests情境一:爬取天气预报数据Requests框架介绍RequestsisanelegantandsimpleHTTPlibraryforPython,builtforhumanbeings.RequestsallowsyoutosendHTTP/1.1requestsextremelyeasily.There’snoneedtomanuallyaddquerystringstoyourURLs,ortoform-encodeyourPOSTdata.Keep-aliveandHTTPconnectionpoolingare100%automatic,thankstourllib3.Requests是一个基于Apache2协议开源的PythonHTTP库,号称是“为人类准备的HTTP库”。Requests有如特点:

知识准备情境一:爬取天气预报数据Keep-Alive连接池国际化域名和URL带持久Cookie的会话浏览器式的SSL认证自动内容解码基本/摘要式的身份认证优雅的key/valueCookie自动解压Unicode响应体HTTP(S)代理支持文件分块上传流下载连接超时分块请求支持.netrc

知识准备Requests环境安装情境一:爬取天气预报数据pipinstallReques

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档