《Hadoop批处理技术与应用》课件——C11 数据分析引擎Impala2.pptxVIP

  • 0
  • 0
  • 约1.54千字
  • 约 18页
  • 2026-01-26 发布于福建
  • 举报

《Hadoop批处理技术与应用》课件——C11 数据分析引擎Impala2.pptx

第十一章数据分析引擎Impala

Impala管理

第十一章数据分析引擎Impala

03

监控

第十一章数据分析引擎Impala

使用CM对impala进行组件添加删除等操作;

查看catalog:

http://host:25020/

查看statstore:

http://host:25010

Impala存储与分区

第十一章数据分析引擎Impala

04

存储与分区

第十一章数据分析引擎Impala

存储方式

对于同样时间的表,不同的的文件格式存储对性能影响很大。如果文件格式支持压缩功能,意味着在实际使用是占用的磁盘空间大大减小,如果读取该表的文件,产生io也小。另外压缩过的数据在查询读取文件时,又需要消耗CPU资源进行解压,需要权衡这样一个过程。

文件格式选择

Impala支持的压缩编码

第十一章数据分析引擎Impala

Snappy--推荐使用的压缩算法,该算法在压缩比和解压速度上实现了很好的平衡。

GZIP--期望达到最大压缩比(最少硬盘空间)时推荐,主要以节省硬盘空间为目的。

Deflate--不支持文本文件

BZIP2--不支持文本文件

LZO--仅支持文本文件。Impala可以直接查询LZO压缩文本文件表,但目前无法创建该类型压缩表和向该类型压缩表插入数据,需要在

Hive中执行这些操作。

Page8

分区

第十一章数据分析引擎Impala

添加分区方式:

partitionedby:创建表时,添加该字段指定分区列表

使用altertable进行分区的添加和删除操作

createtabletab_p0(idint,namestring,ageint)

partitionedby(yearint);

3.向分区内插入数据:

insertintotab_p0partition(year=2014)values(1,zhangsan,18),(2,lisi,23)

insertintotab_p0partition(year=2015)values(3,wangwu’,22),(4,zhaoliu’,28),(5,’tianqi’,24)

4.查询指定分区数据:

selectnamefromtab_p0whereyear=2015;

ImpalaSQL

第十一章数据分析引擎Impala

05

Page10

内部表

第十一章数据分析引擎Impala

其他方式创建内部表

第十一章数据分析引擎Impala

插入数据

第十一章数据分析引擎Impala

创建外部表

第十一章数据分析引擎Impala

Page14

视图

第十一章数据分析引擎Impala

Impala性能优化

第十一章数据分析引擎Impala

06

Page16

执行计划

第十一章数据分析引擎Impala

所谓执行计划,即在查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案:

命令:exlpainsql

性能优化要点

第十一章数据分析引擎Impala

SQL优化,使用之前调用执行计划

选择合适的文件格式进行存储

避免产生很多小文件(如果有其他程序产生的小文件,可以使用中间表)

使用合适的分区技术,根据分区粒度测算

使用computestats进行表信息搜集

网络io的优化:

避免把整个数据发送到客户端

尽可能的做条件过滤

使用limit字句

输出文件时,避免使用美化输出

使用profile输出底层信息计划,在做相应环境优化

文档评论(0)

1亿VIP精品文档

相关文档