Flink原理与实践全套教学课件.pptx

第一章 大数据技术概述;大数据的5个V Volume:数据量大 Velocity:数据产生速度快 Variety:数据类型繁多 Veracity:数据真实性 Value:数据价值;单台计算机无法处理所有数据,使用多台计算机组成集群,进行分布式计算。 分而治之: 将原始问题分解为多个子问题 多个子问题分别在多台计算机上求解 将子结果汇总 比较经典的模式和框架: MPI MapReduce;MPI:Message Passing Interface消息传递接口 使用分治法将问题分解成子问题,在不同节点上分而治之地求解。 MPI提供数据发送和数据接收操作: 将本进程中某些数据发送给其他进程 接收其他进程的数据 自行设计分治算法,将复杂问题分解为子问题 优势:以很细的粒度控制数据的通信 劣势:难度大,开发调试时间成本高;程序员只需要定义两个操作:Map和Reduce 案例:三明治制作 Map阶段将原材料在不同的节点上分别进行处理 Shuffle/Group阶段将不同的中间食材进行组合 Reduce阶段最终将一组中间食材组合成三明治成品 学习门槛比MPI低;单条数据被称为事件(Event)或者被称为一条数据或一个元素。 事件按照时序排列会形成一个数据流(Data Stream)。 数据流一般是无界(Unbounded)的,某段有界数据流(Bounded Data Stream)可以组成

文档评论(0)

1亿VIP精品文档

相关文档