第14章网络爬虫.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第14章网络爬虫;第14章网络爬虫;主要内容;14.1Web的基础知识;

;Web是什么?

Web(WorldWideWeb)是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。

一种基于互联网的全球信息系统,通过超文本链接的方式组织和共享文档资源。

由许多互连的网页构成,每个网页可以包含文本、图片、音频、视频等多种媒体形式,并通过URL(统一资源定位符)进行定位和访问。

Web的核心技术是HTTP(超文本传输协议)和HTML(超文本标记语言)。

在Web上,用户可以使用浏览器从任何地方访问网站,并与网站上的内容进行交互。

;HTTP协议

HTTP协议(HyperTextTransferProtocol,超文本传输协议)是互联网上应用最为广泛的一种网络传输协议,所有的WWW文件都必须遵守该标准。HTTP是一个基于TCP/IP通信协议来传递数据(HTML文件、图片文件、查询结果等)的协议。它属于应用层的最广泛使用的协议。

;HTTP请求头

第一行由两个空格分为三个字符串。第一个字符串表示此次HTTP请求所用的方法,第二个字符串表示访问Web服务器位置。第三个字符串表示此次请求所采用的HTTP协议版本。目前网络仍广泛采用1.1版本的HTTP协议。

Host:指定目标服务器的主机名或IP地址。

Connection:指定是否需要持久连接。

User-Agent:指定客户端使用的浏览器或其他应用程序的信息。

Accept:指定客户端能够接受的MIME类型。

Accept-Language:指定客户端首选的自然语言。

Accept-Encoding:指定客户端能够接受的编码方式,如gzip、deflate等。;HTTP相应头

第一行也有三个字符串,http/1.1标识版本信息,200是网络访问状态码,标识此次访问是成功的。OK是对此次访问的状态的解释。

Server:指定了服务器的类型、版本等信息。

Content-Type:指定了返回的数据的MIME类型。

Content-Length:指定了返回的数据的长度,以字节为单位。

Content-Encoding:指定了返回的数据采用的编码方式,如gzip、deflate等。

Content-Language:指定了返回数据的主要自然语言。

Date:指定了消息产生的日期和时间。

X-Powered-By:说明服务器所采用的解析语言。;HTTP响应头状态码

1xx:提示信息类状态码,表示请求已经被接收,但处理还未完成,或???是正在进行的操作。

2xx:成功类状态码,表示请求已经被成功接收和处理。

3xx:重定向类状态码,表示请求需要进一步的步骤才能完成。

4xx:客户端错误类状态码,表示客户端在请求过程中遇到了问题。

5xx:服务器错误类状态码,表示服务器在处理请求时出现了问题。;

;HTML是什么?

HTML(HyperTextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言。它不是一种编程语言,而是一种描述性语言,通过一系列标签(tags)来描述网页中的各种元素,如文字、图形、动画、声音、表格、链接等。这些标签将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。代码141是一段完整的HTML代码。

;一段完整的HTML代码

!DOCTYPEhtml?标识这是一个HTML5文档。

html?元素是HTML页面的根元素。

head?元素包含了文档的元信息,如标题(title)。

body?元素包含了网页的主体内容,如标题(h1)、段落(p)和链接(a)。

;URL链接标签,可以根据此标签中的URL,跳转到对应的网页上,代码格式如下。html?元素是HTML页面的根元素。代码格式如下:

;图片资源,代码格式如下:;视频资源,代码格式如下;

;CSS:一种用于描述HTML或XML文件样式的标记性语

分离内容与样式:使用CSS可以将样式信息从网页内容中分离出来,使得网页内容更加清晰、易于维护。样式信息通常保存在单独的CSS文件中,通过链接或导入的方式应用到HTML文档中。

层叠与继承:CSS中的样式规则具有层叠性,即当多个规则应用于同一个元素时,会根据优先级和特定规则来决定最终应用的样式。此外,CSS还支持样式的继承,即某些样式属性会从父元素传递给子元素。

丰富的样式选项:CSS提供了丰富的样式选项,可以控制网页中元素的字体、颜色、背景、边框、阴影、动画等各个方面的外观。

提高可访问性和性能:通过合理使用CSS,可以改善网页的可访问性(如为残障人士提供辅助功能),并提高网页的加载性能(如通过缓存和外部样式表减少页面体积)。

兼容性和浏览器支持:虽然大多数现代浏览器都支持CSS,但由于不同浏览器之

文档评论(0)

长情又很酷 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档