Python程序设计语言（第二版）（微课版）课件 11 网络爬虫技术.pptx

下载文档

0
0
约6.77千字
约 27页
2025-06-26 发布于山东
举报
版权申诉
保障服务

Python程序设计语言（第二版）（微课版）课件 11 网络爬虫技术.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十一章网络爬虫技术;一、学习目标：了解一些网络知识及相关的爬虫技术，学会分析

简单HTML文档，利用Python提供的第三方库提

取相应网页中的有价值的信息。

二、学习重点：requests、BeautifulSoup库的使用。

三、学习难点：分析HTML源码信息。;11.1计算机网络基础知识;为了使不同计算机厂家生产的计算机能够相互通信，以便在更大的范围内建立计算机网络，国际标准化组织（ISO）在1978年提出了开放系统互联参考模型，即著名的OSI/RM模型（OpenSystemInterconnection/ReferenceModel）。它将计算机网络体系结构的通信协议划分为七层，自下而上依次为：物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。其中第四层完成数据传送服务，上面三层面向用户。;11.1.2超文本标记语言HTML;HTML,超文本标记语言.简单理解为某些字句加上标志的语言，从而实现预期的特定效果。网页正是由这种HTML语言所编写出来的。作为一套标记语言，基本上只要明白各种标记的用法就算学会了HTML。HTML的语法格式分为嵌套与非嵌套两类，嵌套格式为＜标记＞...＜/标记＞，非嵌套只为＜标记＞。此外，根据标记的不同，有的标记附带有属性参数，则表示为＜标记属性=参数值＞，根据个人需要，可添加或去掉相应的属性标记。;11.2网络爬虫;11.2.1网络爬虫分类及工作原理;11.3requests库的使用;2.post请求核心代码是requests.post(url,data={请求体的字典})，具体例子如下：

importrequests

url=/post

data={name:jack,age:23}

response=requests.post(url,data=data)

print(response.text);3.获取响应信息。

通过status_code获取响应状态码。

r=requests.get(/get)

r.status_code

200

#requests内置一个状态码查询对象

print(r.status_code==requests.codes.ok)

True

#如果发生了4xx或者5xx的错误响应，可以使用raise_for_status()函数来抛出异常

bad_r=requests.get(/status/404)

bad_r.status_code

404

bad_r.raise_for_status()

Traceback(mostrecentcalllast):

Filepyshell#39,line1,inmodule

bad_r.raise_for_status()

FileC:\Users\Administrator\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\models.py,line953,inraise_for_status

raiseHTTPError(http_error_msg,response=self)

requests.exceptions.HTTPError:404ClientError:NOTFOUNDforurl:/status/404

#如果请求没有发生错误，则raise_for_status()返回None;【例11-1】抓取logo.png图片，抓取的右图;11.4BeautifulSoup库的使用;11.4.2BeautifulSoup的四种对象;运行结果：

metacontent=IE=9http-equiv=X-UA-Compatible/

classbs4.element.Tag

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python程序设计语言（第二版）（微课版）课件 11 网络爬虫技术.pptx