项目五数据采集5.1数据采集原理13课件.pptxVIP

项目五数据采集5.1数据采集原理13课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

项目五数据采集5.1数据采集原理主讲人:王艳

目录CONTENT虫基本流程数据采集必备知识数据采集基本概念数据采集的法律问题

01数据采集基本概念网络爬虫网络爬虫又称网络蜘蛛,可以自动化浏览网络网页中的信息,并且能够很方便地把这些信息保存下来。

01数据采集基本概念数据采集的思路

02数据采集的法律问题数据采集可能会有以下常见的法律问题数据的使用骚扰问题隐私的泄露

03数据采集必备知识URLInternet上的每一个网页都具有一个唯一的名称标识,通常称之为URL(UniformResourceLocator,统一资源定位器)。它是www的统一资源定位标志,简单地说URL就是web地址,俗称“网址”。HTTP和HTTPSHTTP,超文本传输协议(HyperTextTransferProtocol),HTTPS,全称是HyperTextTransferProtocoloverSecureSocketLayer

03数据采集必备知识网页的请求过程网页的构成HTML(HyperTextMarkupLanguage)、CSS(CascadingStyleSheets)、JavaScript(脚本语言)

03数据采集必备知识爬虫的基本流程1.发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers、data等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址:,然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端,向服务器端发送了一次请求。2.获取响应内容:如果服务器能正常响应,我们会得到一个Response,Response的内容便是所要获取的内容,类型可能有HTML、Json字符串,二进制数据(图片,视频等)等类型。这个过程就是服务器接收客户端的请求,进过解析发送给浏览器的网页HTML文件。

04爬虫基本流程爬虫的基本流程3.解析内容:得到的内容可能是HTML,可以使用正则表达式,网页解析库进行解析。也可能是Json,可以直接转为Json对象解析。可能是二进制数据,可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地,再进行解释并且展现出来。4.保存数据:保存的方式可以是把数据存为文本,也可以把数据保存到数据库,或者保存为特定的jpg,mp4等格式的文件。这就相当于我们在浏览网页时,下载了网页上的图片或者视频。

04爬虫简单实例

谢谢观看!

文档评论(0)

学海无涯苦做舟 + 关注
实名认证
文档贡献者

职业教育

1亿VIP精品文档

相关文档