- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
impala 概述
impala 概述
什么是Impala?
Impala是⽤于处理存储在Hadoop集群中的⼤量数据的MPP (⼤规模并⾏处理)SQL查
询引擎。 它是⼀个⽤C ++和Java 写的开源软件。 与其他Hadoop 的SQL引擎相⽐,
它提供了⾼性能和低延迟。
换句话说,Impala是性能最⾼的SQL引擎 (提供类似RDBMS的体验),它提供了访问
存储在Hadoop分布式⽂件系统中的数据的最快⽅法。
为什么选择Impala?
Impala通过使⽤标准组件 (如HDFS ,HBase ,Metastore ,YARN和Sentry )将传统分
析数据库的SQL⽀持和多⽤户性能与Apa he Hadoop 的可扩展性和灵活性相结合。
使⽤Impala ,与其他SQL引擎 (如Hive )相⽐,⽤户可以使⽤SQL查询以更快的
⽅式与HDFS或HBase进⾏通信。
Impala可以读取Hadoop使⽤的⼏乎所有⽂件格式,如Parquet ,Avro ,RCFile 。
Impala将相同的元数据,SQL语法 (Hive SQL ),ODBC驱动程序和⽤户界⾯ (Hue
Beeswax )⽤作Apa he Hive ,为⾯向批量或实时查询提供熟悉且统⼀的平台。
与Apa he Hive不同,Impala不基于MapRedu e算法。 它实现了⼀个基于守护进程的分
布式架构,它负责在同⼀台机器上运⾏的查询执⾏的所有⽅⾯。
因此,它减少了使⽤MapRedu e的延迟,这使Impala⽐Apa he Hive快。
Impala 的优点
以下是Cloudera Impala的⼀些值得注意的优点的列表。
使⽤impala ,您可以使⽤传统的SQL知识以极快的速度处理存储在HDFS 中的数
据。
由于在数据驻留 (在Hadoop集群上)时执⾏数据处理,因此在使⽤Impala时,
不需要对存储在Hadoop上的数据进⾏数据转换和数据移动。
使⽤Impala ,您可以访问存储在HDFS ,HBase和Amazon s3 中的数据,⽽⽆需
了解Java (MapRedu e作业)。您可以使⽤SQL查询的基本概念访问它们。
为了在业务⼯具中写⼊查询,数据必须经历复杂的提取 - 变换负载 (ETL )周
期。但是,使⽤Impala ,此过程缩短了。加载和重组的耗时阶段通过新技术克
服,如探索性数据分析和数据发现,使过程更快。
Impala正在率先使⽤Parquet⽂件格式,这是⼀种针对数据仓库场景中典型的⼤
规模查询进⾏优化的柱状存储布局。
Impala 的功能
以下是 loudera Impala的功能 -
Impala可以根据Apa he许可证作为开源免费提供。
Impala⽀持内存中数据处理,即,它访问/分析存储在Hadoop数据节点上的数
据,⽽⽆需数据移动。
您可以使⽤Impala使⽤类SQL查询访问数据。
与其他SQL引擎相⽐,Impala为HDFS 中的数据提供了更快的访问。
使⽤Impala ,您可以将数据存储在存储系统中,如HDFS ,Apa he HBase和
Amazon s3 。
您可以将Impala与业务智能⼯具 (如Tableau ,Pentaho ,Mi ro策略和缩放数
据)集成。
Impala⽀持各种⽂件格式,如LZO ,序列⽂件,Avro ,RCFile和Parquet 。
Impala使⽤Apa he Hive的元数据,ODBC驱动程序和SQL语法。
关系数据库和Impala
Impala使⽤类似于SQL和HiveQL 的Query语⾔。 下表描述了SQL和Impala查询语⾔之间
的⼀些关键差异。
Impala 关系型数据库
Impala使⽤类似于HiveQL 的类似SQL 的 关系数据库使⽤SQL语⾔。
查询语⾔。
在Impala 中,您⽆法更新或删除单个记 在关系数据库中,可以更新或删除单个记
录。 录。
Imp
文档评论(0)