- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据应用技术介绍
2014年2月
Hadoop生态系统
Hadoop生态系统
Sub Project
描述
common
分布式文件系统和通用I/O的组件与接口(序列化,Java RPC和持久化数据结构)
Avro
支持高效的跨语言RPC和持久数据存储的序列化系统
MapReduce
分布式数据处理模型和执行环境,运行在大型商用机集群
HDFS
分布式文件系统,用于大型商用机集群
PIG
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。
Hive
分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)
Hbase
分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)
ZooKeeper
分布式、可用性高的协调服务。提供类似分布式锁的基础服务。
Sqoop
在数据库和HDFS之间高效传输数据的工具
Flume
分布式、可靠、和高可用的海量日志聚合的系统。
Chukwa
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。
Hadoop介绍
HDFS 特点
HDFS缺点
HDFS 部署结构
HDFS 读写过程
MapReduce 部署结构
MapReduce 计算模型
Input
k1, v1
Map
k2, v2
Reduce
k3, v3
Output
MapReduce 扩展接口
InputFormat
Mapper
Partitioner
Reducer
OutputFormat
Map
Reduce
MapReduce实例
MapReduce内部结构
Hadoop 2.0
引入一个新的资源管理系统YARN
HDFS单点故障得以解决
HDFS Federation
HDFS 快照
通过NFS访问HDFS
支持Window系统
Hadoop1 VS Hadoop2
集群资源管理
Hadoop介绍
Yarn 运行原理图
Hbase介绍
1 高可靠性
2 高效性
3 面向列
4 可伸缩
5 可在廉价PC Server搭建大规模结构化存储集群
Hbase体系结构
HBase 系统架构图
HBase部件说明
Client:使用HBase RPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRegionServer进行数据读写类操作Zookeeper:Zookeeper Quorum存储-ROOT-表地址、HMaster地址HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况Zookeeper避免HMaster单点问题HMaster:HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master在运行主要负责Table和Region的管理工作:1 管理用户对表的增删改查操作2 管理HRegionServer的负载均衡,调整Region分布3 Region Split后,负责新Region的分布4 在HRegionServer停机后,负责失效HRegionServer上Region迁移
TableRegion
Table随着记录增多不断变大,会自动分裂成多份Splits,成为Regions
一个region由[startkey,endkey)表示
不同region会被Master分配给相应的RegionServer进行管理
HregionServer
-ROOT- .META.
.META. 记录用户表的Region信息,同时,.META.也可以有多region
-ROOT- 记录.META.表的Region信息,但是,-ROOT-只有一个region
Zookeeper中记录了-ROOT-表的location
客户端访问数据的流程:Client - Zookeeper - -ROOT- - .META. - 用户数据表
多次网络操作,不过client端有cache缓存
HBase 数据模型
Row Key: Table主键,Table中记录按照Row Key排序Timestamp: 每次对数据操作对应的时间戳,也即数据的version numberColumn Family: 列簇,一个table在水平方向有一个或者多个列簇,列簇可由任
您可能关注的文档
最近下载
- 小学英语语法课件- 现在进行时.ppt VIP
- 送电线路工-高级技师.doc VIP
- GB_T 50448-2015水泥基灌浆材料应用技术规范.docx VIP
- IKEA宜家 PÄRUP 派如普(货号804.937.34)安装指南组装说明书.pdf
- 武进区教师心理健康教育全员培训.ppt VIP
- 供热企业运检人员专业知识习题集.pdf VIP
- 高速公路施工标准化管理指南-安全生产.pdf VIP
- GB 55011-2021 城市道路交通工程项目规范.docx VIP
- 2022注册消防工程师继续教育试题答案人员密集场所 .pdf VIP
- 2023年秋学期人教版初中生物七年级上册教学计划附教学进度表.pdf VIP
文档评论(0)