- 8
- 0
- 约1.64万字
- 约 10页
- 2016-11-27 发布于重庆
- 举报
基于mapreduce的Hadoopjoin實现分析
基于mapreduce的Hadoop join实现分析(一)
对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现.
我们来看一个例子,现在有两组数据:一组为单位人员信息,如下:
人员ID 人员名称 地址ID
1 张三 1
2 李四 2
3 王五 1
4 赵六 3
5 马七 3
另外一组为地址信息:
地址ID 地址名称
1 北京
2 上海
3 广州
这里给出了一个很简单的例子,而且数据量很小,就这么用眼睛就能看过来的几行,当然,实际的情况可能是几十万上百万甚至上亿的数据量.要实现的功能很简单,就是将人员信息与地址信息进行join,将人员的地址ID完善成为地址名称.对于Hadoop文件系统的应用,目前看来,很多数据的存储都是基于文本的,而且都是将数据放在一个文件目录中进行处理.因此我们这里也采用这种模式来完成.
对于mapreduce程序来说,最主要的就是将要做的工作转化为map以及reduce两个部分.我们可以将地址以及人员都采用同样的数据结构来存储,通过一个flag标志来指定该数据结构里面存储的是地址信息还是人员信息.经过map后,使用地址ID作为key,
您可能关注的文档
- 基于Linux下的MySQL數据库的研究.doc
- 基于Linux平臺的本机网络监测仪的设计(C语言).doc
- 基于Linux平臺的邮件服务器配置与管理学习情境.doc
- 基于LINUX操作系統的防火墙技术及其具体实现.doc
- 基于LINUX操作系統的防火墙技术及其具体实现计算机理论.doc
- 基于Linux源代碼及Busybox源代码制作精简可启动内核镜像方法.doc
- 基于Linux環境下wordpress的搭建与配置.docx
- 基于Linux的Apache服務器的设计与设计8梅丽.doc
- 基于Linux的Beowulf集群的實现.doc
- 基于Linux的USB主從设备之间的三种通信方式.doc
- 第4课 对称的鱼形(教学设计)一年级美术下册(湘美版2024).docx
- 2024-2025学年山东省德州市德城区青岛版一年级下册期中测试数学试卷.docx
- 第二单元 溶液的酸碱性 第2课时(教学设计)高中化学苏教版2019选择性必修1.docx
- Unit 4 Achievements Period 3(教学设计)高中英语沪教版2020必修第二册.docx
- 全册(教学设计)湘艺版音乐三年级上册.docx
- 第二单元 化学反应的方向与限度 第2课时(教学设计) 高中化学苏教版2019选择性必修1.docx
- 2.1 共价键 第1课时(教学设计)高中化学人教版选择性必修2.docx
- 4.6.2神经调节(第1课时)教学设计-人教版2024八年级上册生物.docx
- Unit 4 The senses Cultural focus(教学设计)高中英语沪教版2020选择性必修第一册.docx
- 2020年中考数学真题分项汇编:数据分析专题.pdf
最近下载
- 销售团队薪酬绩效设计入微模式-上.pdf
- 建筑工程图集 19DX101-1:建筑电气常用数据.pdf VIP
- 国金证券-房地产行业培训框架.pptx VIP
- 浙江省杭州市西湖区杭州学军中学2024年物理高一下期末统考试题含解析.doc VIP
- 北师大版三年级数学下册全册课时练习题及答案(精品)(最全).doc VIP
- #-#下沉庭院电梯基坑防水施工方案.doc VIP
- 2026中资环机动车(天津)有限公司岗位招聘10人笔试参考试题及答案解析.docx VIP
- 2024-2025学年浙江省杭州市杭州四中物理高一下期末质量检测试题含解析.doc VIP
- 热风循环烘箱-清洁验证方案.doc VIP
- 《保健食品用原料 芦荟提取物》.pdf VIP
原创力文档

文档评论(0)