大数据平台介绍.pptVIP

  • 18
  • 0
  • 约5.88千字
  • 约 43页
  • 2019-05-17 发布于广东
  • 举报
大数据平台介绍 大数据 二零一五年七月 2 目录 Hadoop大数据生态圈介绍 大数据应用介绍 3 Cloudera Manager介绍 Hadoop大数据生态圈 Hadoop生态圈 Hadoop简介 Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 Hadoop能解决哪些问题 海量数据需要及时分析和处理。 海量数据需要深入分析和挖掘。 数据需要长期保存 问题: 磁盘IO成为一种瓶颈,而非CPU资源。 网络带宽是一种稀缺资源 硬件故障成为影响稳定的一大因素 HDFS适应条件 HDFS:为以流式数据访问模式存储超大文件而设计的文件系统。 流式数据访问 指的是几百MB,几百GB,几百TB,甚至几百PB 流式数据访问 HDFS建立的思想是:一次写入、多次读取模式是最高 效的。 商用硬件 hadoop不需要运行在昂贵并且高可靠的硬件上。 HDFS不适应条件 低延迟数据访问 HDFS是为了达到高数据吞吐量而优

文档评论(0)

1亿VIP精品文档

相关文档