网站大量收购独家精品文档,联系QQ:2885784924

2.1 HTML源码解析及网络抓包.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.1 HTML源码解析及网络抓包——第二章 数据采集实验目的01掌握从HTML源码中寻找目标数据的方法02掌握网络抓包的方法一、关于HTMLHTML是什么?HTML(超文本标记语言)是用于在Internet上显示Web页面的主要标记语言。网页由HTML组成,用于通过Web浏览器显示文本,图像或其他资源。HTML是制作网页的基础,我们在网络营销中讲的静态网页,就是以HTML为基础制作的网页。HTML网页结构通常包括头部(head)、主体(body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。HTML文件是带有格式标识符和超文本链接的内嵌代码的ASCII文本文件—HTML结构,可以被多种网页浏览器读取,产生网页传递各类资讯。二、认识URL构成URL的一般语法格式为:(带方括号[]的为可选项):scheme://host[:port#]/path/…/[?query-string][#anchor],其中:scheme:协议(例如:http,https,ftp)host:服务器的IP地址或者域名port#:服务器的端口(如果是走协议默认端口,缺省端口80)path:访问资源的路径query-string:参数,发送给http服务器的数据anchor:锚(跳转到网页的指定锚点位置)例如:16:8080/index.jsphtml#product-detail淘宝链接/search?q=玻璃胶https是传输协议,是服务器域名,search是访问资源的路径,问号后的是参数,如果有多个参数用号连接。由三部分组成:资源类型、存放资源的主机域名、资源文件名。也可认为由4部分组成:协议、主机、端口、路径 。实验内容业务背景:你想要学习通过网页源码抓包采集数据,但在采集数据之前需要找到数据的接口,后续才可以通过数据接口采集数据。一、HTML源码解析打开某一网页,例如淘宝网页,在网页页面空白处单击鼠标右键,弹出菜单中单击“查看网页源代码”(不同浏览器表述可能有所不同,例如有的可能是“查看源”,功能是一样的)一、HTML源码解析左侧是HTML的行号,右侧是HTML代码一、HTML源码解析按键盘的CTRL+F键调出搜索框,根据前端页面的目标信息进行搜索(例如:复制图1查看源码所在页面中任一宝贝的标题或其中一部分关键词,粘贴到调出的搜索框内),找到目标信息则说明数据就在HTML中,此数据称之为静态数据。二、网络抓包浏览器分析Response(响应)中的HTML,发现其中引用了很多文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request(请求)去获取图片,CSS文件,或者JS文件,当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来。要注意的是这些文件不会在网页源代码中呈现。打开/,任意空白位置,右键选择“检查”(有的浏览器可能是“审查元素”,或者按键盘F12)进入开发者模式,单击“network(网路)。二、网络抓包刷新页面(可按键盘F5键),可以获取到许多文件,这个过程也称之为抓包。二、网络抓包搜索下拉框会有关键词推荐,与HTML源码解析时搜索出的信息不同,这些关键词并不是静态的(上图中可看到两个蓝色框的内容是相同的),因为系统并不知道用户会搜索什么词,所以无法提前埋在HTML中。通过动态交互的方式,用户产生了操作,系统从服务器获取对应的数据包,使用开发者模式可以观察到这些数据包。课后练习抓取百度搜索框的下拉词数据包抓取速卖通搜索框的下拉词数据包Practice谢谢观看TAHNK YOU FOR WATCHING

您可能关注的文档

文档评论(0)

ALICE99 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档