- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第14章网络爬虫;第14章网络爬虫;主要内容;14.1Web的基础知识;
;Web是什么?
Web(WorldWideWeb)是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。
一种基于互联网的全球信息系统,通过超文本链接的方式组织和共享文档资源。
由许多互连的网页构成,每个网页可以包含文本、图片、音频、视频等多种媒体形式,并通过URL(统一资源定位符)进行定位和访问。
Web的核心技术是HTTP(超文本传输协议)和HTML(超文本标记语言)。
在Web上,用户可以使用浏览器从任何地方访问网站,并与网站上的内容进行交互。
;HTTP协议
HTTP协议(HyperTextTransferProtocol,超文本传输协议)是互联网上应用最为广泛的一种网络传输协议,所有的WWW文件都必须遵守该标准。HTTP是一个基于TCP/IP通信协议来传递数据(HTML文件、图片文件、查询结果等)的协议。它属于应用层的最广泛使用的协议。
;HTTP请求头
第一行由两个空格分为三个字符串。第一个字符串表示此次HTTP请求所用的方法,第二个字符串表示访问Web服务器位置。第三个字符串表示此次请求所采用的HTTP协议版本。目前网络仍广泛采用1.1版本的HTTP协议。
Host:指定目标服务器的主机名或IP地址。
Connection:指定是否需要持久连接。
User-Agent:指定客户端使用的浏览器或其他应用程序的信息。
Accept:指定客户端能够接受的MIME类型。
Accept-Language:指定客户端首选的自然语言。
Accept-Encoding:指定客户端能够接受的编码方式,如gzip、deflate等。;HTTP相应头
第一行也有三个字符串,http/1.1标识版本信息,200是网络访问状态码,标识此次访问是成功的。OK是对此次访问的状态的解释。
Server:指定了服务器的类型、版本等信息。
Content-Type:指定了返回的数据的MIME类型。
Content-Length:指定了返回的数据的长度,以字节为单位。
Content-Encoding:指定了返回的数据采用的编码方式,如gzip、deflate等。
Content-Language:指定了返回数据的主要自然语言。
Date:指定了消息产生的日期和时间。
X-Powered-By:说明服务器所采用的解析语言。;HTTP响应头状态码
1xx:提示信息类状态码,表示请求已经被接收,但处理还未完成,或???是正在进行的操作。
2xx:成功类状态码,表示请求已经被成功接收和处理。
3xx:重定向类状态码,表示请求需要进一步的步骤才能完成。
4xx:客户端错误类状态码,表示客户端在请求过程中遇到了问题。
5xx:服务器错误类状态码,表示服务器在处理请求时出现了问题。;
;HTML是什么?
HTML(HyperTextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言。它不是一种编程语言,而是一种描述性语言,通过一系列标签(tags)来描述网页中的各种元素,如文字、图形、动画、声音、表格、链接等。这些标签将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。代码141是一段完整的HTML代码。
;一段完整的HTML代码
!DOCTYPEhtml?标识这是一个HTML5文档。
html?元素是HTML页面的根元素。
head?元素包含了文档的元信息,如标题(title)。
body?元素包含了网页的主体内容,如标题(h1)、段落(p)和链接(a)。
;URL链接标签,可以根据此标签中的URL,跳转到对应的网页上,代码格式如下。html?元素是HTML页面的根元素。代码格式如下:
;图片资源,代码格式如下:;视频资源,代码格式如下;
;CSS:一种用于描述HTML或XML文件样式的标记性语
分离内容与样式:使用CSS可以将样式信息从网页内容中分离出来,使得网页内容更加清晰、易于维护。样式信息通常保存在单独的CSS文件中,通过链接或导入的方式应用到HTML文档中。
层叠与继承:CSS中的样式规则具有层叠性,即当多个规则应用于同一个元素时,会根据优先级和特定规则来决定最终应用的样式。此外,CSS还支持样式的继承,即某些样式属性会从父元素传递给子元素。
丰富的样式选项:CSS提供了丰富的样式选项,可以控制网页中元素的字体、颜色、背景、边框、阴影、动画等各个方面的外观。
提高可访问性和性能:通过合理使用CSS,可以改善网页的可访问性(如为残障人士提供辅助功能),并提高网页的加载性能(如通过缓存和外部样式表减少页面体积)。
兼容性和浏览器支持:虽然大多数现代浏览器都支持CSS,但由于不同浏览器之
您可能关注的文档
最近下载
- 华为手机营销方法论IPMS和GTM高级培训课件(第一部分)glz.pptx VIP
- (高清版)DB4401∕T 166-2022 《1:500 1:1000 1:2000地形图图式》.docx VIP
- HXD3D型机车检修作业指导书.doc VIP
- 华为GTM与IPMS流程解析glz.pptx VIP
- 家庭治疗历史与流派(2020年10月整理).pdf VIP
- 3.《特殊作业监护人履责管理要求(征求意见稿)》.pdf
- 癸酉本石头记.doc VIP
- 2025至2030中国己内酯行业项目调研及市场前景预测评估报告.docx
- 模具材料价格信息.PDF VIP
- 西门子HMI设备Smart 700 IE、Smart 1000 IE操作说明.pdf VIP
原创力文档


文档评论(0)