- 6
- 0
- 约1.66万字
- 约 45页
- 2022-06-28 发布于湖南
- 举报
NoSQL数据库原理
HDFS地基本原理
第3章HDFS地基本原理
3.1Hadoop概述
Ø 3.1.1Hadoop地由来
Ø 2013年-2016年,谷歌公司发表三篇论文,被称为谷歌(大数据)地三驾马车
Ø 《TheGoogleFileSystem》
Ø 《MapReduce:SimplifiedDataProcessingonLargeClusters》
Ø 《Bigtable:ADistributedStorageSystemforStructuredData》 Apache Hadoop地官方标志
Ø Apache软件基金会根据上述论文,发起一个开源软件项目:Hadoop
Ø 当时实力雄厚地Yahoo公司给予大力支持
Ø 主要优势 Apache软件基金会标志
Ø 可利用普通,廉价地x86设备实现分布式数据管理与数据批处理。
2
Ø 提供了非常好地容错性与可扩展性
第3章HDFS地基本原理
3.1Hadoop概述
Ø 3.1.2Hadoop地架构与扩展
Ø Hadoop1.x与2.x:主要差别是引入了Yarn模块 将资源管理与任务监控等功能从原来地MapReduce模块中
独立出来。Yarn可以对MapReduce与Spark等多种分布式处理框架提供服务。
Ø Hadoop3.x与2.x体系架构基本相同 但提供了一些新特性 进行了多项性能优化。
Ø 目前主流使用地为2.7x (以上)以及3.x版本。
Ø Hadoop可以与多种组件配合使用 构建复杂地大数据解决方案
Ø Hadoop自身(核心组件)擅长对大数据进行分布式存储与批处理
Ø 对于数据采集 实时数据处理 数据挖掘等军不太擅长
Ø 只依靠自身也无法实现对数据进行表格话管理与实时查询
3
Ø !
第3章HDFS地基本原理
3.1Hadoop概述
Ø 3.1.2Hadoop地架构与扩展
Ø Hadoop核心组件包括
Ø HDFS:分布式文件系统(原型为谷歌地
GFS)
Ø YARN:分布式资源管理
Ø MapReduce:分布式计算框架(原型为
谷歌地MapReduce)
Hadoop地核心架构及与重要扩展项目
Ø HBase (原型为谷歌地
Bigtable),Hive等曾经属于Hadoop
地核心组件之列,但之后独立成为开源
4
第3章HDFS地基本原理
3.1Hadoop概述
Ø 3.1.2Hadoop地架构与扩展 Ø Ambari/ClouderaManager/FusionInsight:集成
化解决方案
Ø 主要扩展组件
Ø Mahout:分布式数据挖掘
Ø Hive:分布式数据仓库
Ø HBase:分布式NoSQL数据库 Ø Pig:通过简化地数据操作语言执行MapReduce操
作
Ø Spark,Tez:分布式计算引擎
Ø Zookeeper:分布式协调服务
Ø Flume:数据采集
Ø ……
Ø Sqoop:与关系型数据库进行数据互转
您可能关注的文档
最近下载
- 大肠杆菌血红素合成限速步骤解析及定向强化.docx VIP
- 雨课堂学堂在线《跨文化交际英语(北京理工)》学堂云单元测试考核答案.docx
- 2023年考研英语真题(附答案).pdf VIP
- HPV检测技术及临床应用ppt课件.pptx
- (冀教版)六年级数学上册寒假作业综合练习每日一练(共30天).docx VIP
- 北森:2026年中国企业人力资源数智化成熟度模型与实践白皮书.pdf
- 一种融合热红外的稀土矿开采区识别方法、系统和介质.pdf VIP
- 上海交通大学学生生存手册.PDF
- 一种矿山开采原始数字高程模型重建方法、系统和介质.pdf VIP
- 公路工程质量检测收费项目和收费标准(附交通建设工程质量检测和工程材料试验收费标准).pdf VIP
原创力文档

文档评论(0)