python大数据开发2017.pptxVIP

  • 13
  • 0
  • 约3.24千字
  • 约 25页
  • 2018-01-04 发布于广东
  • 举报
Python大数据开发2017年4月目录1.Hadoop Streaming2.Spark3.Hbase4.HiveImpalaMapRecude分布式计算框架MapReduce采用“分而治之”的思想,将计算任务抽象成Map和Reduce两个计算过程:A.把输入分割成不相关的若干键值(key1/value1)集合,这些键值会有多个map任务来并行处理。B.会对map的输出(一些中间键值对key2/value2集合)按照key2进行排序C.将属于同一个key2的所有value2组合分至一个reduce作为输入D.由reduce任务计算出最终结果并输入key3/value3Hadoop Streaming介绍MapReduce由Java开发,默认提供Java编程接口,所以一般用户Java程序编写,另外提供C++编程接口和Streaming框架。hadoop jar hadoop-mapreduce-examples.jar wordcount /input /outputHadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer。 hadoop jar hadoop-streaming.jar -input :输入文件路径 -output :输出文件路径 -mapper :用户自己写的mapper程

文档评论(0)

1亿VIP精品文档

相关文档