hadoop+hive+hbase分享.ppt

下载文档 降价啦

22
0
约4.96千字
约 33页
2017-12-18 发布于江西
举报
版权申诉
保障服务

hadoop+hive+hbase分享.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoophivehbase分享

Hadoop周边框架——Hbase Hbase Table 简单认识架构 Hadoop周边框架——Hbase Hadoop周边框架——Hbase 表操作流程 HBase中有两张特殊的Table，-ROOT-和.META. ? .META.：记录了用户表的Region信息，.META.可以有多个regoin ? -ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region ? Zookeeper中记录了-ROOT-表的location Hadoop周边框架——Hbase Client HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPC Zookeeper Zookeeper 中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己注册到 Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。 Hadoop周边框架——Hbase HMaster HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作： 1.?????? 管理用户对Table的增、删、改、查操作 2.?????? 管理HRegionServer的负载均衡，调整Region分布 3.?????? 在Region Split后，负责新Region的分配 4.?????? 在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移 Hadoop周边框架——Hbase HRegionServer HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。 Hadoop周边框架——sqoop ● Sqoop是一个数据的导入导出工具，利用脚本可以把RDBMS的数据库导到HIVE或者HBASE中，也可以把HIVE或者HBASE中的数据导入到RDBMS中用hive或者hbase统计完结果之后可以先存入到本地的数据库中，然后用Sqoop导出到RDBMS(例如mysql)中，web应用就可以访问数据库，展示数据了 ● Sqoop在整个hadoop生态应用中的位置： Haoop周边框架--Chukwa Chukwa简介 chukwa 是一个开源的用于监控大型分布式系统的数据收集系统，它包含5个部分 1.?agents : 负责采集最原始的数据,并发送给 collectors，它包含?adaptors ， adaptor直接采集数据的接口和工具,一个 agent 可以管理多个 adaptor 的数据采集 2.?collectors : 负责收集 agents 收送来的数据,并定时写入目的地包括磁盘，分布式文件系统或者hbase 3. ETL Processes(Extraction, Transformation, and Load) : 解析和压缩数据 4.? Data Analytics Scripts :数据解析脚本，用脚本来进一步解析粗粒度的数据，满足细粒度数据的需求 5.?HICC : 负责数据的展示，主要是展示运行时的性能指数 Haoop周边框架--Chukwa Haoop周边框架--Chukwa HICC Haoop周边框架--Chukwa HICC Haoop周边框架--Chukwa Chukwa可以作为收集日志的中间件，前端可以作为收集日志的agent，中间可以架设一个或者多个collector，collector可以对数据做粗粒度的平行处理，然后把数据存储在hdfs上或者是hbase里面，定期执行mapreduce，进行细粒度的数据分析，可以每隔一段时间（一分钟或者五分钟或者适合的时间段），进行细粒度的日志分析，以达到实时的效果 Haoop周边框架--Flume Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。与Chukwa相比， Flume 定制性开