《大数据实时分析技术》课件——处理数据倾斜的方式.pptxVIP

下载本文档

2
0
约小于1千字
约 12页
2024-07-14 发布于福建
举报

《大数据实时分析技术》课件——处理数据倾斜的方式.pptx

处理数据倾斜的方式

01处理数据倾斜方式概述02处理数据倾斜的方式

处理数据倾斜方式概述01

处理数据倾斜方式概述在Spark中解决数据倾斜的方式有很多种，这些解决数据倾斜的方式目的相同，就是使倾斜的task处理的数据分散开来解决数据倾斜。使用HiveETL预处理过滤少数倾斜的key增加并行度使用广播变量广播RDD结果数据采样倾斜的key并分拆join

处理数据倾斜的方式02

处理数据倾斜的方式如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个key对应了100万数据，其他key才对应了10条数据），而且业务场景需要频繁使用Spark对Hive表执行某个分析操作，那么比较适合使用这种技术方案。这种方案从根源上解决了数据倾斜，因为彻底避免了在Spark中执行shuffle类算子，那么肯定就不会有数据倾斜的问题了

处理数据倾斜的方式如果发现导致倾斜的key就少数几个，而且对计算本身的影响并不大的话，那么很适合使用这种方案。比如99%的key就对应10条数据，但是只有一个key对应了100万数据，从而导致了数据倾斜。

处理数据倾斜的方式增加shufflereadtask的数量，可以让原本分配给一个task的多个key分配给多个task，从而让每个task处理比原来更少的数据。

《大数据实时分析技术》课件——处理数据倾斜的方式.pptxVIP

《大数据实时分析技术》课件——处理数据倾斜的方式.pptx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档