hadoop概述及其发展简史试题.ppt

Hadoop Hadoop是什么 一个分布式系统基础架构 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 为什么需要 Hadoop 纽约证券交易所每天产生1TB的交易数据 社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间 互联网档案馆存储着约2PB数据,并以每月至少20TB的速度增长。 瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。 为什么需要 Hadoop 如何存储和分析 为什么需要 Hadoop 从多个磁盘并行读写数据 问题: 硬件故障 一旦开始使用多个硬件设施,其中一个会出故障的概率非常高 通过系统保存数据的冗余副本,在故障发生时,可以使用副本 HDFS B.合并 大部分分析任务需要通过某种方式把数据合并起来 不同的分布式系统可以组合多个来源的数据,但正确性的保证是一个挑战 MapReduce Hadoop提供了一个稳定的共享存储和分析系统。存储由 HDFS 实现,分析由 MapReduce 实现 HDFS HDFS:为以流式数据访问模式存储超大文件而设计的文件系统。 HDFS建立的思想是:一次写入、多次读取模式是最高效的。 HDFS是一个高度容错性的系统,适合部署在廉价的机器上。 HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的

文档评论(0)

1亿VIP精品文档

相关文档