《大数据实时分析技术》课件——处理数据倾斜的方式.pptxVIP

  • 2
  • 0
  • 约小于1千字
  • 约 12页
  • 2024-07-14 发布于福建
  • 举报

《大数据实时分析技术》课件——处理数据倾斜的方式.pptx

处理数据倾斜的方式

01处理数据倾斜方式概述02处理数据倾斜的方式

处理数据倾斜方式概述01

处理数据倾斜方式概述在Spark中解决数据倾斜的方式有很多种,这些解决数据倾斜的方式目的相同,就是使倾斜的task处理的数据分散开来解决数据倾斜。使用HiveETL预处理过滤少数倾斜的key增加并行度使用广播变量广播RDD结果数据采样倾斜的key并分拆join

处理数据倾斜的方式02

处理数据倾斜的方式如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100万数据,其他key才对应了10条数据),而且业务场景需要频繁使用Spark对Hive表执行某个分析操作,那么比较适合使用这种技术方案。这种方案从根源上解决了数据倾斜,因为彻底避免了在Spark中执行shuffle类算子,那么肯定就不会有数据倾斜的问题了

处理数据倾斜的方式如果发现导致倾斜的key就少数几个,而且对计算本身的影响并不大的话,那么很适合使用这种方案。比如99%的key就对应10条数据,但是只有一个key对应了100万数据,从而导致了数据倾斜。

处理数据倾斜的方式增加shufflereadtask的数量,可以让原本分配给一个task的多个key分配给多个task,从而让每个task处理比原来更少的数据。

处理数据倾斜的方

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档