计算传播学与网络爬虫-第三章.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 网络爬虫基础原理;01;Chrome开发者工具;Element面板主要是用于查看网页页面HTML代码及其元素对应得代码。在如图所示Element面板中,主要分为HTML代码区域(区域②)和样式区域(区域③),区域①可以快速选取页面元素对应代码。直接修改这两个区域①与区域②的代码,页面上会实时展示出修改后的效果。 ;将鼠标悬浮在区域②中具体代码行时,客户以在渲染页面看到具体区域; 通过单击区域①的按钮激活定位按钮后,可以将鼠标悬浮在渲染界面某一区域或具体元素上查看其在HTML代码中对应的代码行;Network面板主要用于记录浏览器向该网页服务器发送的请求。通过该面板,可以轻松找到浏览器的详细请求信息,方便进行模拟请求。下图是通过浏览器进入网址的Network面板,记载了进入过程中的所有资源请求信息。;Network面板主要分为上下两个区域,分别是控制区域和请求记录区域。在控制区域,可以设置是否实时记录请求,以及记录的请求类型。也可以通过筛选功能,通过请求类型以及请求的属性包括名字等信息筛选下方记录的请求。请求记录区域记录浏览器在进入这个网址到加载完成发送的所有请求,包括网站源码以及所有包含的资源请求等,并且默认实时记录发送的请求,并展示其缩略的信息。通过单击任意请求,可以看到该请求的详细请求内容、预览、相应信息、Cookie以及请求时间这些详细信息;01;网址分析;在网络中进行请求交互,需要一定的协议与标准来规范如何发送消息、消息的类型、服务器如何响应等等,最初设计的HTTP协议就是为了解决这个问题。 HTTP协议(Hyper Text Transfer Protocol)即超文本传输协议,是一个客户端(用户)与服务器(网站)之间请求和应答的标准,通常使用TCP协议(传输控制协议)。通常,由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP连接。HTTP服务器则在那个端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态,如“HTTP/1.1 200 OK”,以及返回的内容,如请求的文件、数据、错误消息、或者其它信息。 HTTPS协议(Hyper Text Transfer Protocol Secure)即超文本传输安全协议,是一种通过计算机网络进行安全通信的传输协议。HTTPS经由HTTP进行通信,但利用SSL/TLS来加密数据包。HTTPS开发的主要目的,是提供对网站服务器的身份认证,保护交换数据的隐私与完整性。 ;客户端发送一个HTTP请求到服务器的请求消息包括请求行(request line)、请求头部(header)、空行和请求数据四种格式。 请求行:用于说明请求类型,要访问的资源以及所使用的HTTP版本。 请求头部:紧接着请求行(即第一行)之后的部分,用于说明服务器要使用的附加信息。 空行:请求头部后面必须有空行,用于标识请求头结束。 请求数据:也叫主体,可以添加任意的其他数据也可以为空。;HTTP协议从最初至今有HTTP/0.9、HTTP/1.0、HTTP/1.1、HTTP/2共4个版本,从最初仅有的GET请求方法也新增至8种请求方法;在向服务器发送请求点时,需要先知道服务器的具体地址。HTTP使用统一资源标识符URI来传输数据和建立连接。统一资源定位符URL(Uniform Resource Locator)是一种特殊类型的URI,包含了用于查找某个资源的足够的信息,是互联网上用于标识某一处资源的地址,一个完整的URL 如下;URL构成表如下;01;网页构成;HTML(Hyper Text Markup Language,超文本标记语言)是一种用于创建网页的标准标记语言。HTML是一种基础技术,常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器可以读取HTML文件,并将其渲染成可视化网页。HTML描述了一个网站的结构语义随着线索的呈现,使之成为一种标记语言而非编程语言。;HTML元素是构建网站的基石。浏览器使用HTML标签和脚本来诠释网页内容。HTML允许嵌入图像与对象,并且可以用于创建交互式表单,它被用于结构化信息,如标题、段落和列表等,也可用于在一定程度上描述文档的外观和语义。HTML标签大致可分为基本标签、布局标签、文本标签、链接标签、媒体标签、表格标签和表单标签7种标签,不同类型的标签用于定义不同的页面展示内容,熟悉不同标签的作用,可以更加便捷的从页面找到需要的数据。;网页构成;网页构成;网页构成;HTML元素是构建网站的基石。浏览器使用HTML标签和脚本来诠释网页内容。HTML允许嵌入图像与对象,并且可以用于创建交互式表单,它被用于结构化信息,如标题、段落和列表等,也可用于在一定程度上描述文档的外

文档评论(0)

行走的兰花 + 关注
实名认证
文档贡献者

高级营养师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年12月10日上传了高级营养师

1亿VIP精品文档

相关文档