hive调优参数要点.docxVIP

  • 10
  • 0
  • 约1.62万字
  • 约 14页
  • 2021-02-02 发布于山东
  • 举报
第一部分: Hadoop 计算框架的特性 什么是数据倾斜 由于数据的不均衡原因, 导致数据分布不均匀, 造成数据大量的集中到一点, 造成数据热点。 Hadoop 框架的特性 不怕数据大,怕数据倾斜 2) jobs 数比较多的作业运行效率相对比较低, 比如即使有几百行的表, 如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3) sum,count,max,min 等 UDAF ,不怕数据倾斜问题 ,hadoop 在 map 端的汇总合并优化, 使 数据倾斜不成问题 4) count(distinct ), 在数据量大的情况下, 效率较低, 因为 count(distinct) 是按 group by 字段 分组,按 distinct 字段排序,一般这种分布方式是很倾斜的。 第二部分:优化的常用手段 优化的常用手段 解决数据倾斜问题 减少 job 数 设置合理的 map reduce 的 task 数,能有效提升性能。 了解数据分布,自己动手解决数据倾斜问题是个不错的选择 5) 数据量较大的情况下,慎用 count(distinct) 。 对小文件进行合并,是行至有效的提高调度效率的方法。 优化时把握整体,单个作业最优不如整体最优。 第三部分: Hive 的数据类型方面的优化 优化原则 按照一

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档