课件4使用mapr程序分析数据.pptxVIP

  • 0
  • 0
  • 约2.15千字
  • 约 21页
  • 2022-03-15 发布于北京
  • 举报
使用MapReduce程序分析数据课程目标 掌握MapReduce的基本原理 第一个MapReduce程序 MapReduce的序列化 MapReduce的排序 MapReduce的分区 什么是Combiner? 什么是Shuffle?MapReduce的基本概念和原理问题:怎样解决海量数据的计算?MapReduce的基本概念MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。第一个Map-Reduce程序实现Word CountMapReduce的高级编程MapReduce的序列化MapReduce的排序MapReduce的分区什么是Combiner?MapReduce的序列化序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。Java序列化(java.io.Serializable)Hadoop序列化的特点序列化格式特点:紧凑:高效使用存储空间。快速:读写数据的额外开销小可扩展:可透明地读取老格式的数据互操作:支持多语言的交互Hado

文档评论(0)

1亿VIP精品文档

相关文档