- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(2014.04.01impala项目
基于impala的SQL联邦代理研究与实现汇报
2014.04.01 李卓颂
一、Impala简介
Impala是一个在Hadoop集群上运行的本地SQL查询引擎,提供原始HDFS数据和HBase数据库的简单查询访问。
作为Hadoop上的SQL查询引擎,Imapla与Hive具有如表1所示的不同特点:
表1 Impala 与 Hive比较
Impala Hive 定义 在Hadoop集群上运行的本地SQL查询引擎,提供原始HDFS数据和HBase数据库的简单查询访问。
建立在Hadoop上的数据仓库框架 出品人 Cloudera Apache 发布时间 2012年10月
Impala 1.0 beta版 与MapReduce关系 无需通过MapReduce进行计算 MapReduce+hive计算方式 与HDFS、HBase关系 可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据 与HDFS、HBase可以联合部署 查询语言 HQL HiveQL UDF支持 1.0不支持 支持 中间结果的处理 不存储磁盘 存储磁盘 最佳负载类型 批量提取,转化,加载(ETL)类型的Job 实时查询 两者的关系 Impala的运行依赖Hive的元数据 Impala的设计类似于商用并行关系数据库,该分布式查询引擎由Query Planner、Query Coordinator和Query Exec Engine三部分组成。
Impala运行过程中主要有两大重要进程:State Store 与Impalad。其次还有另外一个重要组件Client/Impala-shell。
1.State Store:用于协调各个运行impalad的实例之间的信息关系,Impala正是通过这些信息去定位查询请求所要的数据。换句话说,state store的作用主要为跟踪各个impalad实例的位置和状态,让各个impalad实例以集群的方式运行起来。
与 HDFS的NameNode不一样,虽然State Store一般只安装一份,但一旦State Store挂掉了,各个impalad实例却仍然会保持集群的方式处理查询请求,只是无法将各自的状态更新到State Store中,如果这个时候新加入一个impalad实例,则新加入的impalad实例不为现有集群中的其他impalad实例所识别。然而,State Store一旦重启,则所有State Store所服务的各个impalad实例(包括state store挂掉期间新加入的impalad实例)的信息(由impalad实例发给state store)都会进行重建。
2.Impalad:对应进程为 impalad(核心进程,数据的计算就靠这个进程来执行)
该进程应运行在DataNode机器上,每个DataNode机器运行一个impalad,每个impalad实例会接收、规划并调节来自ODBC或Impala Shell等客户端的查询。每个impalad实例会充当一个Worker,处理由其它impalad实例分发出来的查询片段(query fragments)。客户端可以随便连接到任意一个impalad实例,被连接的impalad实例将充当本次查询的协调者(Ordinator),将查询分发给集群内的其它impalad实例进行并行计算。当所有计算完毕时,其它各个impalad实例将会把各自的计算结果发送给充当 Ordinator的impalad实例,由这个Ordinator实例把结果返回给客户端。每个impalad进程可以处理多个并发请求。
3.Client : 可以是Python CLI(官方提供的impala_shell.py),JDBC/ODBC或者Hue。无论哪个其实就是一个Thrift的client,连接到impalad的21000端口,进行相关SQL操作。
二、Impala所需安装环境
由于impala对原始HDFS数据和HBase数据库进行查询访问,并需要使用Hive的meta store,故部署impala前所需环境有:CDH(Cloudera Hadoop)、HBase、Hive。
impala目前已经出了5个版本,不同版本之间的差异较大。所需的CDH也并不一致。
impala目前的最新版本为1.2.4。
1.操作系统
仅支持如下的64位操作系统:
? Red Hat Enterprise Linux (RHEL) 5.7/6.2/6.4, Oracle Linux 5.7/6.2/6.4, 或 Centos 5.7/6.2/6.4.
? SLES 11 with Service Pack 1 或以上
? Ubuntu 10.04/1
您可能关注的文档
最近下载
- 《八段锦》教学课件.ppt VIP
- 2024-2025学年人教版8年级数学上册《三角形》同步练习试卷(含答案详解).docx VIP
- 2025年混空轻烃燃气项目预评报告 .pdf VIP
- 2025年部编人教版五年级《道德与法治》上册教案(全册) .pdf VIP
- 读书分享读书交流会《堂吉诃德》课件.pptx VIP
- 成人高考(专升本)英语.pdf VIP
- 4.2 实现中华民族伟大复兴的中国梦 课件(共28张PPT)(含音频+视频).pptx VIP
- 苏教版三年级上册数学全册教学设计(配2025年秋新版教材).docx
- 校企合作2.0-菜鸟驿站PPT课件(2021年-2022年).pptx VIP
- 健康体检管理制度.docx VIP
文档评论(0)