网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据技术原理与应用第八章基于Hadoop的数据仓库Hive讲述分解.ppt

大数据技术原理与应用第八章基于Hadoop的数据仓库Hive讲述分解.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
图片展示的实例: (1)利用命令create创建表tempTable,表中有f1,f2,f3三个列族 (2)利用list列出Hbase中所有的表信息 * 图片展示的实例: (1)利用put命令向表tempTalble,行r1,列f1:c1中插入数据 (2)利用scan命令浏览表tempTable的相关信息 * 图片展示的实例: (1)利用put命令向表tempTalble,行r1,列f1:c1中插入数据 (2)利用scan命令浏览表tempTable的相关信息 * 图片展示的实例: (1)利用put命令向表tempTalble,行r1,列f1:c1中插入数据 (2)利用scan命令浏览表tempTable的相关信息 * 图片展示的实例: (1)利用put命令向表tempTalble,行r1,列f1:c1中插入数据 (2)利用scan命令浏览表tempTable的相关信息 * * 14.3.2 Hive中SQL查询转换成MapReduce作业的过程 第1步:由Hive驱动模块中的编译器对用户输入的SQL语言进行词法和语法解析,将SQL语句转化为抽象语法树的形式 第2步:抽象语法树的结构仍很复杂,不方便直接翻译为MapReduce算法程序,因此,把抽象语法书转化为查询块 第3步:把查询块转换成逻辑查询计划,里面包含了许多逻辑操作符 第4步:重写逻辑查询计划,进行优化,合并多余操作,减少MapReduce任务数量 第5步:将逻辑操作符转换成需要执行的具体MapReduce任务 第6步:对生成的MapReduce任务进行优化,生成最终的MapReduce任务执行计划 第7步:由Hive驱动模块中的执行器,对最终的MapReduce任务进行执行输出 14.3.2 Hive中SQL查询转换成MapReduce作业的过程 当启动MapReduce程序时,Hive本身是不会生成MapReduce算法程序的 需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块 Hive通过和JobTracker通信来初始化MapReduce任务,不必直接部署在JobTracker所在的管理节点上执行 通常在大型集群上,会有专门的网关机来部署Hive工具。网关机的作用主要是远程操作和管理节点上的JobTracker通信来执行任务 数据文件通常存储在HDFS上,HDFS由名称节点管理 几点说明: 14.4 Hive HA基本原理 图 Hive HA基本原理 问题:在实际应用中,Hive也暴露出不稳定的问题 解决方案:Hive HA(High Availability) 由多个Hive实例进行管理的,这些Hive实例被纳入到一个资源池中,并由HAProxy提供一个统一的对外接口 对于程序开发人员来说,可以把它认为是一台超强“Hive 14.5 Impala 14.5.1 Impala简介 14.5.2 Impala系统架构 14.5.3 Impala查询执行过程 14.5.4 Impala与Hive的比较 14.5.1 Impala简介 Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出3~30倍 Impala的运行需要依赖于Hive的元数据 Impala是参照 Dremel系统进行设计的 Impala采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和HBase进行交互查询 Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口 14.5.1 Impala简介 图 Impala与其他组件关系 14.5.2 Impala系统架构 图 Impala系统架构 Impala和Hive、HDFS、HBase等工具是统一部署在一个Hadoop平台上的 Impala主要由Impalad,State Store和CLI三部分组成 14.5.2 Impala系统架构 Impala主要由Impalad,State Store和CLI三部分组成 Impalad 负责协调客户端提交的查询的执行 包含Query Planner、Query Coordinator和Query Exec Engine三个模块 与HDFS的数据节点(HDFS DN)运行在同一节点上 给其他Impalad分配任务以及收集其他Impalad的执行结果进行汇总 Impalad也会执行其他Impalad给其分配的任务,主要就是对本地HDFS和HBase里的部分数据进行操作 14.5.2 Impala系统架构 2. State Store 会创建一个statestored进程 负责收集分布在集群中各个Impalad进

文档评论(0)

502992 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档