大数据技术原理与应用第八章基于Hadoop的数据仓库Hive讲述分解.ppt

下载文档 降价啦

7
0
约1.01万字
约 48页
2017-07-23 发布于湖北
举报
版权申诉
保障服务

大数据技术原理与应用第八章基于Hadoop的数据仓库Hive讲述分解.ppt

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

图片展示的实例：（1）利用命令create创建表tempTable，表中有f1，f2，f3三个列族（2）利用list列出Hbase中所有的表信息 * 图片展示的实例：（1）利用put命令向表tempTalble，行r1，列f1:c1中插入数据（2）利用scan命令浏览表tempTable的相关信息 * 图片展示的实例：（1）利用put命令向表tempTalble，行r1，列f1:c1中插入数据（2）利用scan命令浏览表tempTable的相关信息 * 图片展示的实例：（1）利用put命令向表tempTalble，行r1，列f1:c1中插入数据（2）利用scan命令浏览表tempTable的相关信息 * 图片展示的实例：（1）利用put命令向表tempTalble，行r1，列f1:c1中插入数据（2）利用scan命令浏览表tempTable的相关信息 * * 14.3.2 Hive中SQL查询转换成MapReduce作业的过程第1步：由Hive驱动模块中的编译器对用户输入的SQL语言进行词法和语法解析，将SQL语句转化为抽象语法树的形式第2步：抽象语法树的结构仍很复杂，不方便直接翻译为MapReduce算法程序，因此，把抽象语法书转化为查询块第3步：把查询块转换成逻辑查询计划，里面包含了许多逻辑操作符第4步：重写逻辑查询计划，进行优化，合并多余操作，减少MapReduce任务数量第5步：将逻辑操作符转换成需要执行的具体MapReduce任务第6步：对生成的MapReduce任务进行优化，生成最终的MapReduce任务执行计划第7步：由Hive驱动模块中的执行器，对最终的MapReduce任务进行执行输出 14.3.2 Hive中SQL查询转换成MapReduce作业的过程当启动MapReduce程序时，Hive本身是不会生成MapReduce算法程序的需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块 Hive通过和JobTracker通信来初始化MapReduce任务，不必直接部署在JobTracker所在的管理节点上执行通常在大型集群上，会有专门的网关机来部署Hive工具。网关机的作用主要是远程操作和管理节点上的JobTracker通信来执行任务数据文件通常存储在HDFS上，HDFS由名称节点管理几点说明： 14.4 Hive HA基本原理图 Hive HA基本原理问题：在实际应用中，Hive也暴露出不稳定的问题解决方案：Hive HA（High Availability）由多个Hive实例进行管理的，这些Hive实例被纳入到一个资源池中，并由HAProxy提供一个统一的对外接口对于程序开发人员来说，可以把它认为是一台超强“Hive 14.5 Impala 14.5.1 Impala简介 14.5.2 Impala系统架构 14.5.3 Impala查询执行过程 14.5.4 Impala与Hive的比较 14.5.1 Impala简介 Impala是由Cloudera公司开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB级大数据，在性能上比Hive高出3~30倍 Impala的运行需要依赖于Hive的元数据 Impala是参照 Dremel系统进行设计的 Impala采用了与商用并行关系数据库类似的分布式查询引擎，可以直接与HDFS和HBase进行交互查询 Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口 14.5.1 Impala简介图 Impala与其他组件关系 14.5.2 Impala系统架构图 Impala系统架构 Impala和Hive、HDFS、HBase等工具是统一部署在一个Hadoop平台上的 Impala主要由Impalad，State Store和CLI三部分组成 14.5.2 Impala系统架构 Impala主要由Impalad，State Store和CLI三部分组成 Impalad 负责协调客户端提交的查询的执行包含Query Planner、Query Coordinator和Query Exec Engine三个模块与HDFS的数据节点（HDFS DN）运行在同一节点上给其他Impalad分配任务以及收集其他Impalad的执行结果进行汇总 Impalad也会执行其他Impalad给其分配的任务，主要就是对本地HDFS和HBase里的部分数据进行操作 14.5.2 Impala系统架构 2. State Store 会创建一个statestored进程负责收集分布在集群中各个Impalad进