厦大大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive.ppt

厦大大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

14.5.2Impala系统架构Impala主要由Impalad,StateStore和CLI三部分组成Impalad负责协调客户端提交的查询的执行包含QueryPlanner、QueryCoordinator和QueryExecEngine三个模块与HDFS的数据节点(HDFSDN)运行在同一节点上给其他Impalad分配任务以及收集其他Impalad的执行结果进行汇总Impalad也会执行其他Impalad给其分配的任务,主要就是对本地HDFS和HBase里的部分数据进行操作2.StateStore会创建一个statestored进程负责收集分布在集群中各个Impalad进程的资源信息,用于查询调度CLI给用户提供查询使用的命令行工具还提供了Hue、JDBC及ODBC的使用接口说明:Impala中的元数据直接存储在Hive中。Impala采用与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口,从而使得在一个Hadoop平台上,可以统一部署Hive和Impala等分析工具,同时支持批处理和实时查询14.5.3Impala查询执行过程图Impala查询过程图14.5.3Impala查询执行过程Impala执行查询的具体过程:第0步,当用户提交查询前,Impala先创建一个负责协调客户端提交的查询的Impalad进程,该进程会向ImpalaStateStore提交注册订阅信息,StateStore会创建一个statestored进程,statestored进程通过创建多个线程来处理Impalad的注册订阅信息。第1步,用户通过CLI客户端提交一个查询到impalad进程,Impalad的QueryPlanner对SQL语句进行解析,生成解析树;然后,Planner把这个查询的解析树变成若干PlanFragment,发送到QueryCoordinator14.5.3Impala查询执行过程Impala执行查询的具体过程:第2步,Coordinator通过从MySQL元数据库中获取元数据,从HDFS的名称节点中获取数据地址,以得到存储这个查询相关数据的所有数据节点。第3步,Coordinator初始化相应impalad上的任务执行,即把查询任务分配给所有存储这个查询相关数据的数据节点。第4步,QueryExecutor通过流式交换中间输出,并由QueryCoordinator汇聚来自各个impalad的结果。第5步,Coordinator把汇总后的结果返回给CLI客户端。14.5.4Impala与Hive的比较图Impala与Hive的对比Hive与Impala的不同点总结如下:Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询Hive依赖于MapReduce计算框架,Impala把执行计划表现为一棵完整的执行计划树,直接分发执行计划到各个Impalad执行查询Hive在执行过程中,如果内存放不下所有数据,则会使用外存,以保证查询能顺序执行完成,而Impala在遇到内存放不下数据时,不会利用外存,所以Impala目前处理查询时会受到一定的限制14.5.4Impala与Hive的比较Hive与Impala的相同点总结如下:Hive与Impala使用相同的存储数据池,都支持把数据存储于HDFS和HBase中Hive与Impala使用相同的元数据Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划图Impala与Hive的对比14.5.4Impala与Hive的比较总结Impala的目的不在于替换现有的MapReduce工具把Hive与Impala配合使用效果最佳可以先使用Hive进行数据转换处理,之后再使用Impala在Hive处理后的结果数据集上进行快速的数据分析14.6Hive编程实践14.6.1Hive的安装与配置14.6.2Hive的数据类型14.6.3 Hive基本操作14.6.4 Hive应用实例:WordCount14.6.5Hive编程的优势Hive上机实践详细过程,请参考厦门大学数据库实验室建设的“中国高校大数据课程公共服务平台”中的“大数据课程学生服务站”中的“学习指南”栏目:学生服务站地址:/post/4331/学习指南栏目中包含了《Hive实践教程》/blog/hive-in-practice《大数据技术原理与应用》厦门大学计算机科学系林

您可能关注的文档

文档评论(0)

聚好信息咨询 + 关注
官方认证
服务提供商

本公司能够提供如下服务:办公文档整理、试卷、文档转换。

认证主体鹤壁市淇滨区聚好信息咨询服务部
IP属地河南
统一社会信用代码/组织机构代码
92410611MA40H8BL0Q

1亿VIP精品文档

相关文档