大数据应用技术介绍-医学课件.pptVIP

  • 2
  • 0
  • 约2.73千字
  • 约 37页
  • 2018-10-26 发布于湖北
  • 举报
大数据应用技术介绍-医学课件.ppt

TableRegion Table随着记录增多不断变大,会自动分裂成多份Splits,成为Regions 一个region由[startkey,endkey)表示 不同region会被Master分配给相应的RegionServer进行管理 HregionServer -ROOT- .META. .META. 记录用户表的Region信息,同时,.META.也可以有多region -ROOT- 记录.META.表的Region信息,但是,-ROOT-只有一个region Zookeeper中记录了-ROOT-表的location 客户端访问数据的流程: Client - Zookeeper - -ROOT- - .META. - 用户数据表 多次网络操作,不过client端有cache缓存 happy happy happy happy happy /imotov/boston-hopper-elasticsearch-hackathon /guide/en/elasticsearch/reference/master/search-aggregations-bucket-missing-aggregation.html * happy happy happy happy 大数据应用技术介绍 2014年2月 * Hadoop生态系统 Hadoop生态系统 Sub Project 描述 common 分布式文件系统和通用I/O的组件与接口(序列化,Java RPC和持久化数据结构) Avro 支持高效的跨语言RPC和持久数据存储的序列化系统 MapReduce 分布式数据处理模型和执行环境,运行在大型商用机集群 HDFS 分布式文件系统,用于大型商用机集群 PIG Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。 Hive 分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业) Hbase 分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取) ZooKeeper 分布式、可用性高的协调服务。提供类似分布式锁的基础服务。 Sqoop 在数据库和HDFS之间高效传输数据的工具 Flume 分布式、可靠、和高可用的海量日志聚合的系统。 Chukwa Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。 Hadoop介绍 HDFS 特点 HDFS缺点 HDFS 部署结构 HDFS 读写过程 MapReduce 部署结构 MapReduce 计算模型 Input k1, v1 Map k2, v2 Reduce k3, v3 Output MapReduce 扩展接口 InputFormat Mapper Partitioner Reducer OutputFormat Map Reduce MapReduce实例 MapReduce内部结构 Hadoop 2.0 引入一个新的资源管理系统YARN HDFS单点故障得以解决 HDFS Federation HDFS 快照 通过NFS访问HDFS 支持Window系统 Hadoop1 VS Hadoop2 集群资源管理 Hadoop介绍 Yarn 运行原理图 Hbase介绍 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群 Hbase体系结构 HBase 系统架构图 HBase部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum存储-ROOT-表地址、HMaster地址 HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况 Zookeeper避免HMaster单点问题 HMaster: HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master在运行 主要负责Table和Region的管理工作: 1 管理用户对表的增删改查操作 2 管理HRegionServer的负载均衡,调整Region分布 3 Region Split后,负责新Region的分布

文档评论(0)

1亿VIP精品文档

相关文档