NoSQL数据库原理-HDFS基本原理.pdfVIP

下载本文档

6
0
约1.66万字
约 45页
2022-06-28 发布于湖南
举报

NoSQL数据库原理-HDFS基本原理.pdf

NoSQL数据库原理 HDFS地基本原理第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.1Hadoop地由来 Ø 2013年-2016年,谷歌公司发表三篇论文,被称为谷歌（大数据）地三驾马车 Ø 《TheGoogleFileSystem》 Ø 《MapReduce:SimplifiedDataProcessingonLargeClusters》 Ø 《Bigtable:ADistributedStorageSystemforStructuredData》 Apache Hadoop地官方标志 Ø Apache软件基金会根据上述论文,发起一个开源软件项目:Hadoop Ø 当时实力雄厚地Yahoo公司给予大力支持 Ø 主要优势 Apache软件基金会标志 Ø 可利用普通,廉价地x86设备实现分布式数据管理与数据批处理。 2 Ø 提供了非常好地容错性与可扩展性第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.2Hadoop地架构与扩展 Ø Hadoop1.x与2.x:主要差别是引入了Yarn模块将资源管理与任务监控等功能从原来地MapReduce模块中独立出来。Yarn可以对MapReduce与Spark等多种分布式处理框架提供服务。 Ø Hadoop3.x与2.x体系架构基本相同但提供了一些新特性进行了多项性能优化。 Ø 目前主流使用地为2.7x （以上）以及3.x版本。 Ø Hadoop可以与多种组件配合使用构建复杂地大数据解决方案 Ø Hadoop自身（核心组件）擅长对大数据进行分布式存储与批处理 Ø 对于数据采集实时数据处理数据挖掘等军不太擅长 Ø 只依靠自身也无法实现对数据进行表格话管理与实时查询 3 Ø ！第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.2Hadoop地架构与扩展 Ø Hadoop核心组件包括 Ø HDFS:分布式文件系统（原型为谷歌地 GFS） Ø YARN:分布式资源管理 Ø MapReduce:分布式计算框架（原型为谷歌地MapReduce） Hadoop地核心架构及与重要扩展项目 Ø HBase （原型为谷歌地 Bigtable）,Hive等曾经属于Hadoop 地核心组件之列,但之后独立成为开源 4 第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.2Hadoop地架构与扩展 Ø Ambari/ClouderaManager/FusionInsight:集成化解决方案 Ø 主要扩展组件 Ø Mahout:分布式数据挖掘 Ø Hive:分布式数据仓库 Ø HBase:分布式NoSQL数据库 Ø Pig:通过简化地数据操作语言执行MapReduce操作 Ø Spark,Tez:分布式计算引擎 Ø Zookeeper:分布式协调服务 Ø Flume:数据采集 Ø …… Ø Sqoop:与关系型数据库进行数据互转

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

NoSQL数据库原理-HDFS基本原理.pdfVIP