《Hadoop批处理技术与应用》课件——C11 数据分析引擎Impala2.pptxVIP

下载本文档

0
0
约1.54千字
约 18页
2026-01-26 发布于福建
举报

《Hadoop批处理技术与应用》课件——C11 数据分析引擎Impala2.pptx

第十一章数据分析引擎Impala

Impala管理

第十一章数据分析引擎Impala

监控

第十一章数据分析引擎Impala

使用CM对impala进行组件添加删除等操作；

查看catalog：

http://host:25020/

查看statstore:

http://host:25010

Impala存储与分区

第十一章数据分析引擎Impala

存储与分区

第十一章数据分析引擎Impala

存储方式

对于同样时间的表，不同的的文件格式存储对性能影响很大。如果文件格式支持压缩功能，意味着在实际使用是占用的磁盘空间大大减小，如果读取该表的文件，产生io也小。另外压缩过的数据在查询读取文件时，又需要消耗CPU资源进行解压，需要权衡这样一个过程。

文件格式选择

Impala支持的压缩编码

第十一章数据分析引擎Impala

Snappy--推荐使用的压缩算法，该算法在压缩比和解压速度上实现了很好的平衡。

GZIP--期望达到最大压缩比(最少硬盘空间)时推荐，主要以节省硬盘空间为目的。

Deflate--不支持文本文件

BZIP2--不支持文本文件

LZO--仅支持文本文件。Impala可以直接查询LZO压缩文本文件表，但目前无法创建该类型压缩表和向该类型压缩表插入数据，需要在

Hive中执行这些操作。

Page8

分区

第十一章数据分析引擎Impala

添加分区方式：

partitionedby：创建表时，添加该字段指定分区列表

使用altertable进行分区的添加和删除操作

createtabletab_p0(idint,namestring,ageint)

partitionedby(yearint);

3.向分区内插入数据：

insertintotab_p0partition(year=2014)values(1,zhangsan,18),(2,lisi,23)

insertintotab_p0partition(year=2015)values(3,wangwu’,22),(4,zhaoliu’,28),(5,’tianqi’,24)

4.查询指定分区数据：

selectnamefromtab_p0whereyear=2015;

ImpalaSQL

第十一章数据分析引擎Impala

Page10

内部表

第十一章数据分析引擎Impala

其他方式创建内部表

第十一章数据分析引擎Impala

插入数据

第十一章数据分析引擎Impala

创建外部表

第十一章数据分析引擎Impala

Page14

视图

第十一章数据分析引擎Impala

Impala性能优化

第十一章数据分析引擎Impala

Page16

执行计划

第十一章数据分析引擎Impala

所谓执行计划，即在查询sql执行之前，先对该sql做一个分析，列出需要完成这一项查询的详细方案：

命令：exlpainsql

性能优化要点

第十一章数据分析引擎Impala

SQL优化，使用之前调用执行计划

选择合适的文件格式进行存储

避免产生很多小文件（如果有其他程序产生的小文件，可以使用中间表）

使用合适的分区技术，根据分区粒度测算

使用computestats进行表信息搜集

网络io的优化：

避免把整个数据发送到客户端

尽可能的做条件过滤

使用limit字句

输出文件时，避免使用美化输出

使用profile输出底层信息计划，在做相应环境优化

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《Hadoop批处理技术与应用》课件——C11 数据分析引擎Impala2.pptxVIP