使用数据分区优化join.pptVIP

  • 2
  • 0
  • 约1.93千字
  • 约 12页
  • 2017-05-09 发布于四川
  • 举报
使用数据分区优化join

数据分区 -by 球哥 大数据学习网介绍 我们的网址是:bigdatastudy.cn 我们提供专业的大数据学习视频,包括Hadoop,Spark,Storm,Mahout,机器学习等。 我们定价合理,让每个人都学得起大数据。 友情提示 本系列课程主要由Learning.Spark这本书整理而来。 本系列课程主要目的,帮助想要学习Spark的同学入门。 本系列课程中的ppt可自由传播,无需任何授权,但不要用于商业用途哦。 本系列课程中的视频不要自由传播哦,如果同学们觉得课程价格不合理,欢迎在下面的群中反馈,我们会考虑调整价格的。 Spark学习交流群:368770186,371896553 数据分区 数据分区 设计RDD的Partitioner 数据分区 解决低效问题 我们知道userData 表比每五分钟的时间日志大很多,这浪费了很多工作。userData 每次调用的时候,都通过网络hashed和shuffled,尽管它不变化。 在userData使用partitionBy() 例子- 自定义 partitioner val sc = new SparkContext(...) val userData=sc.textFile(/home/spark/testfile/userData) .map(line=(line.split( )(0),line.split( )(1

文档评论(0)

1亿VIP精品文档

相关文档