- 18
- 0
- 约5.88千字
- 约 43页
- 2019-05-17 发布于广东
- 举报
大数据平台介绍
大数据
二零一五年七月
2
目录
Hadoop大数据生态圈介绍
大数据应用介绍
3
Cloudera Manager介绍
Hadoop大数据生态圈
Hadoop生态圈
Hadoop简介
Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop能解决哪些问题
海量数据需要及时分析和处理。
海量数据需要深入分析和挖掘。
数据需要长期保存
问题:
磁盘IO成为一种瓶颈,而非CPU资源。
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
HDFS适应条件
HDFS:为以流式数据访问模式存储超大文件而设计的文件系统。
流式数据访问
指的是几百MB,几百GB,几百TB,甚至几百PB
流式数据访问
HDFS建立的思想是:一次写入、多次读取模式是最高 效的。
商用硬件
hadoop不需要运行在昂贵并且高可靠的硬件上。
HDFS不适应条件
低延迟数据访问
HDFS是为了达到高数据吞吐量而优
您可能关注的文档
最近下载
- 昏迷患者饮食护理.pptx VIP
- 山西北方兴安化学工业有限公司校园招聘模拟试题附带答案详解及答案1套.docx VIP
- 浙江省杭州市钱塘区教科版科学六下期末统考卷(含答案).pdf VIP
- 山西北方兴安化学工业有限公司校园招聘模拟试题附带答案详解附答案.docx VIP
- ★WOW GM命令(单机版可用).xls VIP
- 2023-2024学年安徽省安庆市怀宁县新安中学高一下学期期末数学试题.pdf VIP
- 山西北方兴安化学工业有限公司校园招聘模拟试题附带答案详解及参考答案.docx VIP
- 2026年中考考前预测卷:物理(西藏卷)(解析版).docx VIP
- 《立林L8智能化可视对讲系统简易说明书》.docx VIP
- 钢板桩支护技术规程(T∕CECS 720-2020).pdf VIP
原创力文档

文档评论(0)