第一章大数据技术概述;大数据的5个V
Volume:数据量大
Velocity:数据产生速度快
Variety:数据类型繁多
Veracity:数据真实性
Value:数据价值;单台计算机无法处理所有数据,使用多台计算机组成集群,进行分布式计算。
分而治之:
将原始问题分解为多个子问题
多个子问题分别在多台计算机上求解
将子结果汇总
比较经典的模式和框架:
MPI
MapReduce;MPI:Message Passing Interface消息传递接口
使用分治法将问题分解成子问题,在不同节点上分而治之地求解。
MPI提供数据发送和数据接收操作:
将本进程中某些数据发送给其他进程
接收其他进程的数据
自行设计分治算法,将复杂问题分解为子问题
优势:以很细的粒度控制数据的通信
劣势:难度大,开发调试时间成本高;程序员只需要定义两个操作:Map和Reduce
案例:三明治制作
Map阶段将原材料在不同的节点上分别进行处理
Shuffle/Group阶段将不同的中间食材进行组合
Reduce阶段最终将一组中间食材组合成三明治成品
学习门槛比MPI低;单条数据被称为事件(Event)或者被称为一条数据或一个元素。
事件按照时序排列会形成一个数据流(Data Stream)。
数据流一般是无界(Unbounded)的,某段有界数据流(Bounded Data Stream)可以组成
原创力文档

文档评论(0)