基于mapreduce的Hadoopjoin實现分析.docVIP

  • 8
  • 0
  • 约1.64万字
  • 约 10页
  • 2016-11-27 发布于重庆
  • 举报
基于mapreduce的Hadoopjoin實现分析

基于mapreduce的Hadoop join实现分析(一) 对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现. 我们来看一个例子,现在有两组数据:一组为单位人员信息,如下: 人员ID 人员名称 地址ID 1 张三 1 2 李四 2 3 王五 1 4 赵六 3 5 马七 3 另外一组为地址信息: 地址ID 地址名称 1 北京 2 上海 3 广州 这里给出了一个很简单的例子,而且数据量很小,就这么用眼睛就能看过来的几行,当然,实际的情况可能是几十万上百万甚至上亿的数据量.要实现的功能很简单,就是将人员信息与地址信息进行join,将人员的地址ID完善成为地址名称.对于Hadoop文件系统的应用,目前看来,很多数据的存储都是基于文本的,而且都是将数据放在一个文件目录中进行处理.因此我们这里也采用这种模式来完成. 对于mapreduce程序来说,最主要的就是将要做的工作转化为map以及reduce两个部分.我们可以将地址以及人员都采用同样的数据结构来存储,通过一个flag标志来指定该数据结构里面存储的是地址信息还是人员信息.经过map后,使用地址ID作为key,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档