大数据分析查询引擎Impala光环大数据推出AI智客计划送2000助学金.pdfVIP

下载本文档

0
0
约1.37万字
约 14页
2019-01-03 发布于湖北
举报
版权申诉

大数据分析查询引擎Impala光环大数据推出AI智客计划送2000助学金.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

光环大数据--大数据培训人工智能培训大数据分析查询引擎Impala_光环大数据推出AI 智客计划送2000 助学金 Impala 是Cloudera 公司主导开发的新型查询系统，它提供SQL 语义，能查询存储在Hadoop 的HDFS 和HBase 中的PB 级大数据。已有的Hive 系统虽然也提供了SQL 语义，但由于Hive 底层执行使用的是MapReduce 引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala 的最大特点也是最大卖点就是它的快速。在介绍Impala 之前需要先介绍Google 的Dremel 系统，因为Impala 最开始是参照 Dremel 系统进行设计的。 Dremel 是Google 的交互式数据分析系统，它构建于Google 的GFS(Google File System) 等系统之上，支撑了Google 的数据分析服务BigQuery 等诸多服务。Dremel 的技术亮点主要有两个：一是实现了嵌套型数据的列存储;二是使用了多层查询树，使得任务可以在数千个节点上并行执行和聚合结果。列存储在关系型数据库中并不陌生，它可以减少查询时处理的数据量，有效提升查询效率。Dremel 的列存储的不同之处在于它针对的并不是传统的关系数据，而是嵌套结构的数据。Dremel 可以将一条条的嵌套结构的记录转换成列存储形式，查询时根据查询条件读取需要的列，然后进行条件过滤，输出时再将列组装成嵌套结构的记录输出，记录的正向和反向转换都通过高效的状态机实现。另外，Dremel 的多层查询树则借鉴了分布式搜索引擎的设计，查询树的根节点负责接收查询，并将查询分发到下一层节点，底层节点负责具体的数据读取和查询执行，然后将结果返回上层节点。 Impala 是Cloudera 在受到Google 的Dremel 启发下开发的实时交互SQL 大数据查询工具， Impala 没有再使用缓慢的Hive+MapReduce 批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎( 由Query Planner、Query Coordinator 和Query Exec Engine 三部分组成)，可以直接从HDFS 或HBase 中用SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。Impala 其实就是Hadoop 的Dremel，Impala 使用的列存储格式是Parquet。Parquet 实现了 Dremel 中的列存储，未来还将支持 Hive 并添加字典编码、游程编码等功能。Impala 的系统架构如图所示。Impala 使用了Hive 的SQL 接口(包括SELECT 、INSERT、Join 等操作)，但目前只实现了 Hive 的SQL 语义的子集(例如尚未对 UDF 提供支持)，表的元数据信息存储光环大数据光环大数据--大数据培训人工智能培训在Hive 的 Metastore 中。StateStore 是Impala 的一个子服务，用来监控集群中各个节点的健康状况，提供节点注册、错误检测等功能。Impala 在每个节点运行了一个后台服务Impalad， Impalad 用来响应外部请求，并完成实际的查询处理。Impalad 主要包含Query Planner、Query Coordinator 和Query Exec Engine 三个模块。QueryPalnner 接收来自SQL APP 和ODBC 的查询，然后将查询转换为许多子查询，Query Coordinator 将这些子查询分发到各个节点上，由各个节点上的Query Exec Engine 负责子查询的执行，最后返回子查询的结果，这些中间结果经过聚集之后最终返回给用户。 Impala 主要由Impalad， State Store 和CLI 组成。 Impalad 与DataNode 运行在同一节点上，由Impalad 进程表示，它接收客户端的查询请求(接收查询请求的Impalad 为Coordinator，Coord