hadoop+hive+hbase分享.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoophivehbase分享

Hadoop周边框架——Hbase Hbase Table 简单认识 架构 Hadoop周边框架——Hbase Hadoop周边框架——Hbase 表操作流程 HBase中有两张特殊的Table,-ROOT-和.META. ? .META.:记录了用户表的Region信息,.META.可以有多个regoin ? -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region ? Zookeeper中记录了-ROOT-表的location Hadoop周边框架——Hbase Client HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信,对于管理类操作,Client与HMaster进行RPC;对于数据读写类操作,Client与HRegionServer进行RPC Zookeeper Zookeeper 中除了存储了-ROOT-表的地址和HMaster的地址,HRegionServer也会把自己注册到 Zookeeper中,使得HMaster可以随时感知到各个HRegionServer的健康状态。 Hadoop周边框架——Hbase HMaster HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行,HMaster在功能上主要负责Table和Region的管理工作: 1.?????? 管理用户对Table的增、删、改、查操作 2.?????? 管理HRegionServer的负载均衡,调整Region分布 3.?????? 在Region Split后,负责新Region的分配 4.?????? 在HRegionServer停机后,负责失效HRegionServer 上的Regions迁移 Hadoop周边框架——Hbase HRegionServer HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。 Hadoop周边框架——sqoop ● Sqoop是一个数据的导入导出工具,利用脚本可以把RDBMS的数据库导到HIVE或者HBASE中,也可以把HIVE或者HBASE中的数据导入到RDBMS中 用hive或者hbase统计完结果之后可以先存入到本地的数据库中,然后用Sqoop导出到RDBMS(例如mysql)中,web应用就可以访问数据库,展示数据了 ● Sqoop在整个hadoop生态应用中的位置: Haoop周边框架--Chukwa Chukwa简介 chukwa 是一个开源的用于监控大型分布式系统的数据收集系统,它包含5个部分 1.?agents : 负责采集最原始的数据,并发送给 collectors,它包含?adaptors , adaptor直接采集数据的接口和工具,一个 agent 可以管理多个 adaptor 的数据采集 2.?collectors : 负责收集 agents 收送来的数据,并定时写入目的地包括磁盘,分布式文件系统或者hbase 3. ETL Processes(Extraction, Transformation, and Load) : 解析和压缩数据 4.? Data Analytics Scripts :数据解析脚本,用脚本来进一步解析粗粒度的数据,满 足细粒度数据的需求 5.?HICC : 负责数据的展示,主要是展示运行时的性能指数 Haoop周边框架--Chukwa Haoop周边框架--Chukwa HICC Haoop周边框架--Chukwa HICC Haoop周边框架--Chukwa Chukwa可以作为收集日志的中间件,前端可以作为收集日志的agent,中间可以架设一个或者多个collector,collector可以对数据做粗粒度的平行处理,然后把数据存储在hdfs上或者是hbase里面,定期执行mapreduce,进行细粒度的数据分析,可以每隔一段时间(一分钟或者五分钟或者适合的时间段),进行细粒度的日志分析,以达到实时的效果 Haoop周边框架--Flume Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 与Chukwa相比, Flume 定制性开

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档