Flink原理与实践全套教学课件.pptx

下载文档 降价啦

173
0
约3.78万字
约 279页
2022-10-22 发布于浙江
举报
保障服务

Flink原理与实践全套教学课件.pptx

第一章大数据技术概述;大数据的5个V Volume：数据量大 Velocity：数据产生速度快 Variety：数据类型繁多 Veracity：数据真实性 Value：数据价值;单台计算机无法处理所有数据，使用多台计算机组成集群，进行分布式计算。分而治之：将原始问题分解为多个子问题多个子问题分别在多台计算机上求解将子结果汇总比较经典的模式和框架： MPI MapReduce;MPI：Message Passing Interface消息传递接口使用分治法将问题分解成子问题，在不同节点上分而治之地求解。 MPI提供数据发送和数据接收操作：将本进程中某些数据发送给其他进程接收其他进程的数据自行设计分治算法，将复杂问题分解为子问题优势：以很细的粒度控制数据的通信劣势：难度大，开发调试时间成本高;程序员只需要定义两个操作：Map和Reduce 案例：三明治制作 Map阶段将原材料在不同的节点上分别进行处理 Shuffle/Group阶段将不同的中间食材进行组合 Reduce阶段最终将一组中间食材组合成三明治成品学习门槛比MPI低;单条数据被称为事件（Event）或者被称为一条数据或一个元素。事件按照时序排列会形成一个数据流（Data Stream）。数据流一般是无界（Unbounded）的，某段有界数据流（Bounded Data Stream）可以组成

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Flink原理与实践全套教学课件.pptx