笔记11-15.doc

下载文档

1
0
约1.06万字
约 9页
2017-12-20 发布于河南
举报
版权申诉
保障服务

笔记11-15.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

笔记11-15

第十一讲：RDD实战 1)RDD实战 RDD操作类型： Transformation Action controller包括persist(cache是persist的一种情况) 在reduce的时候数据必须满足交换律和结合律 88个文件为什么产生了89个任务，我们在数据reduceByKey传递进来了一个1，那么在第二个阶段就变成了一个任务，原本是88 * 2 = 176个在进行reduceByKey(_+_,1).saveAsTextFile() ：这时候数据过来的时候，之所以知道数据在哪里，是因为shuffle在管理，上一个阶段的输出，会交给我们的MapOutputTracker，输出在什么地方driver会记录着，DAG让下一个stage运行的时候，会从driver获取前一个输出在哪里。这里的并行度设置会跟我们的Partition输出有管，跟hadoop一样。可能会有空文件。。。。 2)RDD的Transformation和Action 3)RDD的执行手动绘图第十二讲：RDD案例（join、cogroup、reduceByKey、groupByKey等） object Tranformations { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName(Tranformations).setMaster(local) val sc = new SparkContext(conf) val rdd = sc.parallelize(1 to 10, 1) var mapped=rdd.map(_*2) // mapped.collect.foreach(println) val filted = mapped.filter(_ %4==0)//mapped.filter(i = i%2 ==0) filted.collect().foreach(println) val bigData = Array(scala spark,java hadoop,java tachyon) val bigDataStrings = sc.parallelize(bigData) val words = bigDataStrings.flatMap { x = x.split( ) } words.collect().foreach { x = println(x) } val groupData = Array(Tuple2(100,spark),Tuple2(90,tachyon),Tuple2(80,kafka),Tuple2(100,hadoop),Tuple2(97,flink)) val padata = sc.parallelize(groupData) val grouped = padata.groupByKey grouped.collect().foreach(println) val lines = sc.textFile(F:\\IMF\\Big_Data_Software\\spark-1.6.0-bin-hadoop2.6\\README.md, 1) val splited = lines.flatMap { line = line.split( ) } val mapped1 = splited.map { word =(word,1)} var couts = mapped1.reduceByKey(_+_).map(pair = (pair._2,pair._1)) // sortByKey是比较耗费性能 val sorted = couts.sortByKey(false,1) sorted.collect.foreach(pair= println(pair._2,pair._1)) //join:大数据就是解决数据孤岛的问题，让数据进行关联。 val studentName = Array(Tuple2(1,spark),Tuple2(2,tachyon),Tuple2(3,hadoop),Tuple2(4,hbase)) val studentscore = Array(Tuple2(1,100),Tuple2(2,80),Tuple2(3,88)) val names = sc.paralleliz