hive调优参数要点.docxVIP

下载本文档

10
0
约1.62万字
约 14页
2021-02-02 发布于山东
举报

hive调优参数要点.docx

第一部分： Hadoop 计算框架的特性什么是数据倾斜由于数据的不均衡原因，导致数据分布不均匀，造成数据大量的集中到一点，造成数据热点。 Hadoop 框架的特性不怕数据大，怕数据倾斜 2) jobs 数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个 jobs，耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3) sum,count,max,min 等 UDAF ，不怕数据倾斜问题 ,hadoop 在 map 端的汇总合并优化，使数据倾斜不成问题 4) count(distinct ), 在数据量大的情况下，效率较低，因为 count(distinct) 是按 group by 字段分组，按 distinct 字段排序，一般这种分布方式是很倾斜的。第二部分：优化的常用手段优化的常用手段解决数据倾斜问题减少 job 数设置合理的 map reduce 的 task 数，能有效提升性能。了解数据分布，自己动手解决数据倾斜问题是个不错的选择 5) 数据量较大的情况下，慎用 count(distinct) 。对小文件进行合并，是行至有效的提高调度效率的方法。优化时把握整体，单个作业最优不如整体最优。第三部分： Hive 的数据类型方面的优化优化原则按照一

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

hive调优参数要点.docxVIP