impala 概述.pdf

下载文档

36
0
约3.77千字
约 3页
2017-09-05 发布于浙江
举报
版权申诉
保障服务

impala 概述.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

impala 概述

impala 概述什么是Impala？ Impala是⽤于处理存储在Hadoop集群中的⼤量数据的MPP （⼤规模并⾏处理）SQL查询引擎。它是⼀个⽤C ++和Java 写的开源软件。与其他Hadoop 的SQL引擎相⽐，它提供了⾼性能和低延迟。换句话说，Impala是性能最⾼的SQL引擎（提供类似RDBMS的体验），它提供了访问存储在Hadoop分布式⽂件系统中的数据的最快⽅法。为什么选择Impala？ Impala通过使⽤标准组件（如HDFS ，HBase ，Metastore ，YARN和Sentry ）将传统分析数据库的SQL⽀持和多⽤户性能与Apa he Hadoop 的可扩展性和灵活性相结合。使⽤Impala ，与其他SQL引擎（如Hive ）相⽐，⽤户可以使⽤SQL查询以更快的⽅式与HDFS或HBase进⾏通信。 Impala可以读取Hadoop使⽤的⼏乎所有⽂件格式，如Parquet ，Avro ，RCFile 。 Impala将相同的元数据，SQL语法（Hive SQL ），ODBC驱动程序和⽤户界⾯（Hue Beeswax ）⽤作Apa he Hive ，为⾯向批量或实时查询提供熟悉且统⼀的平台。与Apa he Hive不同，Impala不基于MapRedu e算法。它实现了⼀个基于守护进程的分布式架构，它负责在同⼀台机器上运⾏的查询执⾏的所有⽅⾯。因此，它减少了使⽤MapRedu e的延迟，这使Impala⽐Apa he Hive快。 Impala 的优点以下是Cloudera Impala的⼀些值得注意的优点的列表。使⽤impala ，您可以使⽤传统的SQL知识以极快的速度处理存储在HDFS 中的数据。由于在数据驻留（在Hadoop集群上）时执⾏数据处理，因此在使⽤Impala时，不需要对存储在Hadoop上的数据进⾏数据转换和数据移动。使⽤Impala ，您可以访问存储在HDFS ，HBase和Amazon s3 中的数据，⽽⽆需了解Java （MapRedu e作业）。您可以使⽤SQL查询的基本概念访问它们。为了在业务⼯具中写⼊查询，数据必须经历复杂的提取 - 变换负载（ETL ）周期。但是，使⽤Impala ，此过程缩短了。加载和重组的耗时阶段通过新技术克服，如探索性数据分析和数据发现，使过程更快。 Impala正在率先使⽤Parquet⽂件格式，这是⼀种针对数据仓库场景中典型的⼤规模查询进⾏优化的柱状存储布局。 Impala 的功能以下是 loudera Impala的功能 - Impala可以根据Apa he许可证作为开源免费提供。 Impala⽀持内存中数据处理，即，它访问/分析存储在Hadoop数据节点上的数据，⽽⽆需数据移动。您可以使⽤Impala使⽤类SQL查询访问数据。与其他SQL引擎相⽐，Impala为HDFS 中的数据提供了更快的访问。使⽤Impala ，您可以将数据存储在存储系统中，如HDFS ，Apa he HBase和 Amazon s3 。您可以将Impala与业务智能⼯具（如Tableau ，Pentaho ，Mi ro策略和缩放数据）集成。 Impala⽀持各种⽂件格式，如LZO ，序列⽂件，Avro ，RCFile和Parquet 。 Impala使⽤Apa he Hive的元数据，ODBC驱动程序和SQL语法。关系数据库和Impala Impala使⽤类似于SQL和HiveQL 的Query语⾔。下表描述了SQL和Impala查询语⾔之间的⼀些关键差异。 Impala 关系型数据库 Impala使⽤类似于HiveQL 的类似SQL 的关系数据库使⽤SQL语⾔。查询语⾔。在Impala 中，您⽆法更新或删除单个记在关系数据库中，可以更新或删除单个记录。录。 Imp