大数据应用技术介绍培训课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据应用技术介绍 2014年2月 Hadoop生态系统 Hadoop生态系统 Sub Project 描述 common 分布式文件系统和通用I/O的组件与接口(序列化,Java RPC和持久化数据结构) Avro 支持高效的跨语言RPC和持久数据存储的序列化系统 MapReduce 分布式数据处理模型和执行环境,运行在大型商用机集群 HDFS 分布式文件系统,用于大型商用机集群 PIG Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。 Hive 分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业) Hbase 分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取) ZooKeeper 分布式、可用性高的协调服务。提供类似分布式锁的基础服务。 Sqoop 在数据库和HDFS之间高效传输数据的工具 Flume 分布式、可靠、和高可用的海量日志聚合的系统。 Chukwa Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。 Hadoop介绍 HDFS 特点 HDFS缺点 HDFS 部署结构 HDFS 读写过程 MapReduce 部署结构 MapReduce 计算模型 Input k1, v1 Map k2, v2 Reduce k3, v3 Output MapReduce 扩展接口 InputFormat Mapper Partitioner Reducer OutputFormat Map Reduce MapReduce实例 MapReduce内部结构 Hadoop 2.0 引入一个新的资源管理系统YARN HDFS单点故障得以解决 HDFS Federation HDFS 快照 通过NFS访问HDFS 支持Window系统 Hadoop1 VS Hadoop2 集群资源管理 Hadoop介绍 Yarn 运行原理图 Hbase介绍 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群 Hbase体系结构 HBase 系统架构图 HBase部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum存储-ROOT-表地址、HMaster地址 HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况 Zookeeper避免HMaster单点问题 HMaster: HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master在运行 主要负责Table和Region的管理工作: 1 管理用户对表的增删改查操作 2 管理HRegionServer的负载均衡,调整Region分布 3 Region Split后,负责新Region的分布 4 在HRegionServer停机后,负责失效HRegionServer上Region迁移 TableRegion Table随着记录增多不断变大,会自动分裂成多份Splits,成为Regions 一个region由[startkey,endkey)表示 不同region会被Master分配给相应的RegionServer进行管理 HregionServer -ROOT- .META. .META. 记录用户表的Region信息,同时,.META.也可以有多region -ROOT- 记录.META.表的Region信息,但是,-ROOT-只有一个region Zookeeper中记录了-ROOT-表的location 客户端访问数据的流程: Client - Zookeeper - -ROOT- - .META. - 用户数据表 多次网络操作,不过client端有cache缓存 HBase 数据模型 Row Key:     Table主键,Table中记录按照Row Key排序 Timestamp:     每次对数据操作对应的时间戳,也即数据的version number Column Family: 列簇,一个table在水平方向有一个或者多个列簇,列簇可由任

文档评论(0)

扶摇直上九万里 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档