NoSQL数据库原理-HDFS基本原理.pdfVIP

  • 6
  • 0
  • 约1.66万字
  • 约 45页
  • 2022-06-28 发布于湖南
  • 举报
NoSQL数据库原理 HDFS地基本原理 第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.1Hadoop地由来 Ø 2013年-2016年,谷歌公司发表三篇论文,被称为谷歌(大数据)地三驾马车 Ø 《TheGoogleFileSystem》 Ø 《MapReduce:SimplifiedDataProcessingonLargeClusters》 Ø 《Bigtable:ADistributedStorageSystemforStructuredData》 Apache Hadoop地官方标志 Ø Apache软件基金会根据上述论文,发起一个开源软件项目:Hadoop Ø 当时实力雄厚地Yahoo公司给予大力支持 Ø 主要优势 Apache软件基金会标志 Ø 可利用普通,廉价地x86设备实现分布式数据管理与数据批处理。 2 Ø 提供了非常好地容错性与可扩展性 第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.2Hadoop地架构与扩展 Ø Hadoop1.x与2.x:主要差别是引入了Yarn模块 将资源管理与任务监控等功能从原来地MapReduce模块中 独立出来。Yarn可以对MapReduce与Spark等多种分布式处理框架提供服务。 Ø Hadoop3.x与2.x体系架构基本相同 但提供了一些新特性 进行了多项性能优化。 Ø 目前主流使用地为2.7x (以上)以及3.x版本。 Ø Hadoop可以与多种组件配合使用 构建复杂地大数据解决方案 Ø Hadoop自身(核心组件)擅长对大数据进行分布式存储与批处理 Ø 对于数据采集 实时数据处理 数据挖掘等军不太擅长 Ø 只依靠自身也无法实现对数据进行表格话管理与实时查询 3 Ø ! 第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.2Hadoop地架构与扩展 Ø Hadoop核心组件包括 Ø HDFS:分布式文件系统(原型为谷歌地 GFS) Ø YARN:分布式资源管理 Ø MapReduce:分布式计算框架(原型为 谷歌地MapReduce) Hadoop地核心架构及与重要扩展项目 Ø HBase (原型为谷歌地 Bigtable),Hive等曾经属于Hadoop 地核心组件之列,但之后独立成为开源 4 第3章HDFS地基本原理 3.1Hadoop概述 Ø 3.1.2Hadoop地架构与扩展 Ø Ambari/ClouderaManager/FusionInsight:集成 化解决方案 Ø 主要扩展组件 Ø Mahout:分布式数据挖掘 Ø Hive:分布式数据仓库 Ø HBase:分布式NoSQL数据库 Ø Pig:通过简化地数据操作语言执行MapReduce操 作 Ø Spark,Tez:分布式计算引擎 Ø Zookeeper:分布式协调服务 Ø Flume:数据采集 Ø …… Ø Sqoop:与关系型数据库进行数据互转

文档评论(0)

1亿VIP精品文档

相关文档