《大数据采集技术与应用》全套教学课件.pptx

《大数据采集技术与应用》全套教学课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《大数据采集与应用》;;课时分配;基础篇;随着大数据时代的到来,每天会产生海量数据,例如Internet上网页数量超出160亿个,如何获取用户感兴趣的数据成为数据分析必不可少的前提。;章节任务;;;任务引入1;;教学内容;大数据的主流技术;数据(data):是指对客观事物进行记录的符号,是对客观事物的性质、

状态以及相互关系等进行记载的物理符号或符号的组合。;(一)数据、大数据;(一)数据、大数据;(二)大数据主流技术;(二)大数据主流技术;(二)大数据主流技术;(二)大数据主流技术;(二)大数据主流技术;大数据采集技术;(一)大数据采集系统;(二)数据采集方法;大数据采集工具;爬虫:一种按照用户条件,并根据一定的规则,自动获取网络上数据的

程序。搜索引擎就是利用爬虫技术实现对信息的搜索。;Kettle是一款典型的ETL工具。;Flume是一个分布式、高可靠、高可用的海量日志聚合系统;

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。;本任务学习了大数据基本概念和主流技术。

包括如下内容:

1.大数据基本概念和5V特性。

2.大数据采集技术。

3.大数据采集框架。;;谢谢!;;;;任务引入1;;教学内容;爬虫的定义;爬虫:一种按照用户条件,并根据一定的规则,自动获取网络上的数据的程序。;爬虫的分类;爬虫的分类;;爬虫的工作原理;(一)通用网络爬虫;(二)聚焦网络爬虫;爬虫的搜索策略;(一)广度优先搜索;(二)最佳优先搜索;(三)深度优先搜索;反爬虫;随着网络不断增长,网络用户也呈现几何增长。随之而来的数据安全事件不断发生。例如诈骗电话、电信诈骗等。;保护数据,维护数据安全,保护个人与集体的利益。;(三)反爬虫的策略;(三)反爬虫的策略;(三)反爬虫的策略;(三)反爬虫的策略;本任务学习了爬虫的基本概念、原理和搜索策略。

包括如下内容:

1.爬虫基本概念。

2.爬虫分类。

3.爬虫的工作原理。

4.爬虫的搜索策略。

5.反爬虫的策略;;谢谢!;;;;任务引入;;教学内容;HTTP基本原理;全称是超文本传输协议(HyperTextTransferProtocol)

主要实现从客户端到服务???端的请求、数据传输、响应等一系列过程的封装。;HTTP是一个4层或5层协议结构,它包含了许多网络协议。;全称是统一资源定位符(UniversalResourceLocator);全称是HyperTextTransferProtocoloverSecureSocketLayer;当输入网址并按回车键后,浏览器就向网站的服务器发送了一个请求;

网站服务器接收到这个请求之后对该请求进行处理和解析,找到客户端所需要的资源,不论是否找到,服务器会生成一个响应,然后返回给客户端;

响应里面包含了客户端请求的资源信息以及其他状态信息等内容,浏览器再对其进行解析并将结果显示在浏览器中。;Chrome浏览器的网络开发者模式可以清楚地看到请求的数据。;点击URL可以看到请求和响应等数据。;第一列Name:请求网页的名称,即URL

第二列Status:即响应的状态码。

如果显示为200,表示响应的正常的,这里显示的304,表示文档未修改。

如果出现异常,会显示同状态码,通过状态码可以了解服务器的响应状态。

第三列Type:即请求的文档类型。如果是document,表示请求的是一个HTML文档。

第四列nitiator:即请求源。用来记录请求发起的对象或进程。

第五列ize:即请求的资源大小。

第六列Time:即发起请求到获得响应之间的时间。

第七列Timeline:即网络请求的时间线。;常见的请求方式有两种:GET和POST。

在GET请求方式中,参数是包含在URL里面的,数据可以在URL中看到。

POST请求的URL不会包含参数信息,参数通过表单的形式传输,表单是包含在请求体中。;客户端请求的网址。;Accept:指定客户端可接受的内容类型。

Accept-Language:指定浏览器可接受的语言。

Accept-Encoding:指定浏览器可以支持的web服务器返回内容压缩编码类型。

Host:指定请求的服务器的域名和端口号。

Cookie:HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器。

Referer:先前网页的地址,当前请求网页紧随其后,即来路。

User-Agent:包含发出请求的用户信息。

它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、浏览器及版本等信息。

Content-Type:请求的与实体对应的MIME信息。

例如text/html代表HTML格式

文档评论(0)

163 + 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档