《数据采集技术与应用》课件——3.1-2 http请求格式.pptxVIP

《数据采集技术与应用》课件——3.1-2 http请求格式.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

http请求数据采集技术与应用

内容/contentHTTP和HTTPS协议0102总结与思考03HTTP请求

HTTP和HTTPS协议HTTP协议全称为超文本传输协议(HyperTextTransferProtocol),它用于将Web服务器的超文本资源传送到浏览器中。HTTP协议能够高效、准确地传送超文本资源,但浏览器与Web服务器的连接是一种一次性连接,它限制每次连接只能处理一个请求。这意味着每个请求都是独立的,服务器返回本次请求的应答后便立即关闭连接,下次请求再重新建立连接。对于网络爬虫来说,它采集的页面通常使用的是HTTP协议和HTTPS协议。

HTTP和HTTPS协议HTTPS协议全称为超文本传输安全协议(HyperTextTransferProtocolSecure),该协议在HTTP协议基础上添加了安全套接字协议(SecureSocketsLayer,SSL),数据在传输过程中主要通过数字证书、加密算法、非对称密钥等技术完成互联网数据传输加密,实现互联网传输安全保护。对于网络爬虫来说,它采集的页面通常使用的是HTTP协议和HTTPS协议。

HTTP请求浏览器向Web服务器发送的信息是一个HTTP请求,每个HTTP请求由请求行、请求头部、空行以及请求数据(有的也称为请求体)这4个部分组成。

HTTP请求请求行GET/item/Python/407313HTTP/1.1请求行的内容具体如下。在请求行中,GET表示向服务器请求网络资源时所使用的请求方法,/item/Python/407313表示请求的URL地址,HTTP/1.1表示使用的HTTP版本。

HTTP请求请求行常用的请求方法包括GET和POST,其中GET用于请求服务器发送某个资源,POST用于向服务器提交表单或上传文件,表单数据或文件的数据会包含在请求体中。请求方法GET和POST的区别主要体现两个方面。GET请求方法通过请求参数传输数据,最多只能传输2KB的数据;POST请求方法通过实体内容传输数据,可以传输的数据大小没有限制。传输数据大小GET请求方法的参数信息会在URL中明文显示,安全性比较低;POST请求方法传递的参数会隐藏在实体内容中,用户看不到,安全性更高。安全性

HTTP请求请求头请求行紧挨的部分就是若干个请求头信息,请求头主要用于说明服务器要使用的附加信息。Host用于指定被请求资源的服务器主机名和端口号。User-Agent用于标识客户端身份,通常页面会根据不同的User-Agent信息自动做出适配,甚至返回不同的响应内容。Accept用于指定浏览器或其他客户端可以接受的MIME文件类型,服务器可以根据该字段判断并返回适当的文件格式。Referer用于标识当前请求页面的来源页面地址,即表示当前页面是通过此来源页面里的链接进入的。

HTTP请求请求头请求行紧挨的部分就是若干个请求头信息,请求头主要用于说明服务器要使用的附加信息。Accept-Charse用于指定浏览器可以接受的字符集类型。Cookie用于在浏览器中寄存的小型数据体,它可以记载和服务器相关的用户信息,也可以用来实现模拟登录。Content-Type用于指出实体内容的MIME类型。

总结与思考课后,大家完成对http响应格式的预习

下次课再见!

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档