《大数据采集技术与应用》全套教学课件.pptx

下载文档

0
0
约1.71万字
约 576页
2025-06-21 发布于浙江
举报
版权申诉
保障服务

《大数据采集技术与应用》全套教学课件.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《大数据采集与应用》;;课时分配;基础篇;随着大数据时代的到来，每天会产生海量数据，例如Internet上网页数量超出160亿个，如何获取用户感兴趣的数据成为数据分析必不可少的前提。;章节任务;;;任务引入1;;教学内容;大数据的主流技术;数据（data）:是指对客观事物进行记录的符号，是对客观事物的性质、

状态以及相互关系等进行记载的物理符号或符号的组合。;（一）数据、大数据;（一）数据、大数据;（二）大数据主流技术;（二）大数据主流技术;（二）大数据主流技术;（二）大数据主流技术;（二）大数据主流技术;大数据采集技术;（一）大数据采集系统;（二）数据采集方法;大数据采集工具;爬虫：一种按照用户条件，并根据一定的规则，自动获取网络上数据的

程序。搜索引擎就是利用爬虫技术实现对信息的搜索。;Kettle是一款典型的ETL工具。;Flume是一个分布式、高可靠、高可用的海量日志聚合系统;

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。;本任务学习了大数据基本概念和主流技术。

包括如下内容：

1.大数据基本概念和5V特性。

2.大数据采集技术。

3.大数据采集框架。;;谢谢！;;;;任务引入1;;教学内容;爬虫的定义;爬虫：一种按照用户条件，并根据一定的规则，自动获取网络上的数据的程序。;爬虫的分类;爬虫的分类;;爬虫的工作原理;（一）通用网络爬虫;（二）聚焦网络爬虫;爬虫的搜索策略;（一）广度优先搜索;（二）最佳优先搜索;（三）深度优先搜索;反爬虫;随着网络不断增长，网络用户也呈现几何增长。随之而来的数据安全事件不断发生。例如诈骗电话、电信诈骗等。;保护数据，维护数据安全，保护个人与集体的利益。;（三）反爬虫的策略;（三）反爬虫的策略;（三）反爬虫的策略;（三）反爬虫的策略;本任务学习了爬虫的基本概念、原理和搜索策略。

包括如下内容：

1.爬虫基本概念。

2.爬虫分类。

3.爬虫的工作原理。

4.爬虫的搜索策略。

5.反爬虫的策略;;谢谢！;;;;任务引入;;教学内容;HTTP基本原理;全称是超文本传输协议（HyperTextTransferProtocol）

主要实现从客户端到服务???端的请求、数据传输、响应等一系列过程的封装。;HTTP是一个4层或5层协议结构，它包含了许多网络协议。;全称是统一资源定位符（UniversalResourceLocator）;全称是HyperTextTransferProtocoloverSecureSocketLayer;当输入网址并按回车键后，浏览器就向网站的服务器发送了一个请求;

网站服务器接收到这个请求之后对该请求进行处理和解析，找到客户端所需要的资源，不论是否找到，服务器会生成一个响应，然后返回给客户端;

响应里面包含了客户端请求的资源信息以及其他状态信息等内容，浏览器再对其进行解析并将结果显示在浏览器中。;Chrome浏览器的网络开发者模式可以清楚地看到请求的数据。;点击URL可以看到请求和响应等数据。;第一列Name：请求网页的名称，即URL

第二列Status：即响应的状态码。

如果显示为200，表示响应的正常的，这里显示的304，表示文档未修改。

如果出现异常，会显示同状态码，通过状态码可以了解服务器的响应状态。

第三列Type：即请求的文档类型。如果是document，表示请求的是一个HTML文档。

第四列nitiator：即请求源。用来记录请求发起的对象或进程。

第五列ize：即请求的资源大小。

第六列Time：即发起请求到获得响应之间的时间。

第七列Timeline：即网络请求的时间线。;常见的请求方式有两种：GET和POST。

在GET请求方式中，参数是包含在URL里面的，数据可以在URL中看到。

POST请求的URL不会包含参数信息，参数通过表单的形式传输，表单是包含在请求体中。;客户端请求的网址。;Accept：指定客户端可接受的内容类型。

Accept-Language：指定浏览器可接受的语言。

Accept-Encoding：指定浏览器可以支持的web服务器返回内容压缩编码类型。

Host：指定请求的服务器的域名和端口号。

Cookie：HTTP请求发送时，会把保存在该请求域名下的所有cookie值一起发送给web服务器。

Referer：先前网页的地址，当前请求网页紧随其后,即来路。

User-Agent：包含发出请求的用户信息。

它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、浏览器及版本等信息。

Content-Type：请求的与实体对应的MIME信息。

例如text/html代表HTML格式

您可能关注的文档

文档评论（0）

163 + 关注: 实名认证

内容提供者

知识分享

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《大数据采集技术与应用》全套教学课件.pptx