hadoop汇报2报告范本.ppt

Hadoop大数据平台基础与应用 目录 大数据背景 Hadoop简介 Hadoop核心之HDFS Hadoop核心之MapReduce Hadoop应用案例 研究设想(结合案例推理系统) 大数据的特性 Volume Volume Variety Volume 模态多样 Veracity Volume 真伪难辨 Velocity Volume 速度极快 体量巨大 文本 视频 图片 音频 到2020年,数据总量达40ZB,人均5.2TB 分享的内容条目超过25亿个/天,增加数据超过500TB/天 大数据涉及的领域 * 用户生成数据 Deep Web数据 多模态内容数据 天文 气象 基因 医学 经济 物理 其他领域 网络与关系数据 大数据史记 一种大数据可视化系统架构 Hadoop是什么? Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。 解决的问题: 海量数据的存储——HDFS 海量数据的分析——MapReduce 资源管理调度——Yarn(hadoop2.X之后) Hadoop的产生 根据Google发布的三篇论文——GFS(The Google File System)、MapReduce、BigTable Hadoop项目结构 除了Hadoop的两大核心内容Hadoop分布式文件系统(HDFS)和MapReduce计算框架之外,还有着其他紧密的关联

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档