(2014.04.01impala项目.docVIP

下载本文档

1
0
约4.37千字
约 9页
2017-01-29 发布于北京
举报
版权申诉

(2014.04.01impala项目.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(2014.04.01impala项目

基于impala的SQL联邦代理研究与实现汇报 2014.04.01 李卓颂一、Impala简介 Impala是一个在Hadoop集群上运行的本地SQL查询引擎，提供原始HDFS数据和HBase数据库的简单查询访问。作为Hadoop上的SQL查询引擎，Imapla与Hive具有如表1所示的不同特点：表1 Impala 与 Hive比较 Impala Hive 定义在Hadoop集群上运行的本地SQL查询引擎，提供原始HDFS数据和HBase数据库的简单查询访问。建立在Hadoop上的数据仓库框架出品人 Cloudera Apache 发布时间 2012年10月 Impala 1.0 beta版与MapReduce关系无需通过MapReduce进行计算 MapReduce+hive计算方式与HDFS、HBase关系可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据与HDFS、HBase可以联合部署查询语言 HQL HiveQL UDF支持 1.0不支持支持中间结果的处理不存储磁盘存储磁盘最佳负载类型批量提取，转化，加载（ETL）类型的Job 实时查询两者的关系 Impala的运行依赖Hive的元数据 Impala的设计类似于商用并行关系数据库，该分布式查询引擎由Query Planner、Query Coordinator和Query Exec Engine三部分组成。 Impala运行过程中主要有两大重要进程：State Store 与Impalad。其次还有另外一个重要组件Client/Impala-shell。 1.State Store：用于协调各个运行impalad的实例之间的信息关系，Impala正是通过这些信息去定位查询请求所要的数据。换句话说，state store的作用主要为跟踪各个impalad实例的位置和状态，让各个impalad实例以集群的方式运行起来。与 HDFS的NameNode不一样，虽然State Store一般只安装一份，但一旦State Store挂掉了，各个impalad实例却仍然会保持集群的方式处理查询请求，只是无法将各自的状态更新到State Store中，如果这个时候新加入一个impalad实例，则新加入的impalad实例不为现有集群中的其他impalad实例所识别。然而，State Store一旦重启，则所有State Store所服务的各个impalad实例（包括state store挂掉期间新加入的impalad实例）的信息（由impalad实例发给state store）都会进行重建。 2.Impalad：对应进程为 impalad（核心进程，数据的计算就靠这个进程来执行）该进程应运行在DataNode机器上，每个DataNode机器运行一个impalad，每个impalad实例会接收、规划并调节来自ODBC或Impala Shell等客户端的查询。每个impalad实例会充当一个Worker，处理由其它impalad实例分发出来的查询片段(query fragments)。客户端可以随便连接到任意一个impalad实例，被连接的impalad实例将充当本次查询的协调者（Ordinator)，将查询分发给集群内的其它impalad实例进行并行计算。当所有计算完毕时，其它各个impalad实例将会把各自的计算结果发送给充当 Ordinator的impalad实例，由这个Ordinator实例把结果返回给客户端。每个impalad进程可以处理多个并发请求。 3.Client : 可以是Python CLI（官方提供的impala_shell.py），JDBC/ODBC或者Hue。无论哪个其实就是一个Thrift的client，连接到impalad的21000端口，进行相关SQL操作。二、Impala所需安装环境由于impala对原始HDFS数据和HBase数据库进行查询访问，并需要使用Hive的meta store，故部署impala前所需环境有：CDH(Cloudera Hadoop)、HBase、Hive。 impala目前已经出了5个版本，不同版本之间的差异较大。所需的CDH也并不一致。 impala目前的最新版本为1.2.4。 1.操作系统仅支持如下的64位操作系统: ? Red Hat Enterprise Linux (RHEL) 5.7/6.2/6.4, Oracle Linux 5.7/6.2/6.4, 或 Centos 5.7/6.2/6.4. ? SLES 11 with Service Pack 1 或以上 ? Ubuntu 10.04/1