第5章-云计算的开源实现Hadoop精读.ppt

第5章 云计算的开源实现Hadoop * 5.1 Hadoop概述 以MapReduce框架和Hadoop分布式文件系统(HDFS)为核心。 同时包含Hive、HBase、Pig、Common、Avro、Chukwa等多个子项目的大数据处理平台。 目前基本上已成为MapReduce实现的产业标准。 在互联网领域得到了广泛的应用: Yahoo! 百度:搜索日志的分析和网页数据的挖掘工作 淘宝:存储并处理电子商务交易的相关数据 * 5.2 Hadoop在云计算和大数据 的位置和关系 Hadoop是构建云计算环境的一种分布式框架 HDFS采用了分布式存储方式,提高了读写速度。 MapReduce 用以整合分布式文件系统上的数据。 采用存储冗余数据的方式保证了数据的安全性。 工业界大数据领域的事实标准 业界的使用和改进迭代进一步完善并推动了Hadoop的发展。 * 5.3 Hadoop生态系统 底层以HDFS和MapReduce为核心,上层为各种存储、计算、分析等应用系统,包括Common、Avro、Chukwa、Hive、HBase、Pig等。 * Hadoop生态系统 HDFS:Hadoop分布式文件系统,用以实现分布式存储,是GFS的Java开源实现,运行在大型商业机集群。 MapReduce:分布式数据处理模型和执行环境,运行在大型商业机集群,能够处理T级别及以上的数

文档评论(0)

1亿VIP精品文档

相关文档