使用数据分区优化join.pptVIP

下载本文档

2
0
约1.93千字
约 12页
2017-05-09 发布于四川
举报

使用数据分区优化join.ppt

使用数据分区优化join

数据分区 -by 球哥大数据学习网介绍我们的网址是：bigdatastudy.cn 我们提供专业的大数据学习视频，包括Hadoop，Spark，Storm，Mahout，机器学习等。我们定价合理，让每个人都学得起大数据。友情提示本系列课程主要由Learning.Spark这本书整理而来。本系列课程主要目的，帮助想要学习Spark的同学入门。本系列课程中的ppt可自由传播，无需任何授权，但不要用于商业用途哦。本系列课程中的视频不要自由传播哦，如果同学们觉得课程价格不合理，欢迎在下面的群中反馈，我们会考虑调整价格的。 Spark学习交流群：368770186，371896553 数据分区数据分区设计RDD的Partitioner 数据分区解决低效问题我们知道userData 表比每五分钟的时间日志大很多，这浪费了很多工作。userData 每次调用的时候，都通过网络hashed和shuffled，尽管它不变化。在userData使用partitionBy() 例子- 自定义 partitioner val sc = new SparkContext(...) val userData=sc.textFile(/home/spark/testfile/userData) .map(line=(line.split( )(0),line.split( )(1

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

使用数据分区优化join.pptVIP