- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
细细品味Hadoop
——Hadoop 集群 (第 9 期)
精
华
集
锦
csAxp
/
2012 年3 月9 日
创建时间:2012/3/9 修改时间:2012/3/11 修改次数:0
目录
1、本期内容2
1.1 数据去重2
1.1.1 实例描述2
1.1.2 设计思路3
1.1.3 程序代码3
1.1.4 代码结果5
1.2 数据排序7
1.2.1 实例描述7
1.2.2 设计思路8
1.2.3 程序代码8
1.2.4 代码结果 10
1.3 平均成绩 11
1.3.1 实例描述 12
1.3.2 设计思路 12
1.3.3 程序代码 13
1.3.4 代码结果 15
1.4 单表关联 17
1.4.1 实例描述 17
1.4.2 设计思路 18
1.4.3 程序代码 19
1.4.4 代码结果23
1.5 多表关联27
1.5.1 实例描述27
1.5.2 设计思路28
1.5.3 程序代码28
1.5.4 代码结果32
1.6 倒排索引33
1.6.1 实例描述33
1.6.2 设计思路35
1.6.3 程序代码37
1.6.4 代码结果40
2 、参考文献42
3、打赏小编43
中国·北京——虾皮工作室( ) 编辑:虾皮 1
创建时间:2012/3/9 修改时间:2012/3/11 修改次数:0
Hadoop 集群(第9 期)
——MapReduce 初级案例
1、本期内容
1.1 数据去重
“数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数
据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去
重。下面就进入这个实例的MapReduce 程序设计。
1.1.1 实例描述
对数据文件中的数据进行去重。数据文件中的每行都是一个数据。
样例输入如下所示:
1)file1:
2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c
2 )file2:
2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c
样例输出如下所示:
中国·北京——虾皮工作室
您可能关注的文档
- HGT_2727-1955_聚乙酸乙烯酯乳液木材胶粘剂.pdf
- HG-T_20512-2000_仪表配管配线设计规定[1].pdf
- HGT2806-2009奥氏体不锈钢压力容器制造管理细则.pdf
- HG-T3180-2002_尿素高压设备衬里板及内件的焊接工艺评定和焊工技能评定.pdf
- HGT3679-2000电解槽金属阳极涂层用三氮化钉.pdf
- HG-T3696.2-2002_无机化工产品化学分析用杂质标准溶液的制备.pdf
- HG-T20570-95(汇编) 工艺系统工程设计技术规定.pdf
- HGT20570-95工艺系统工程设计技术规定.pdf
- HG-T20613-2009钢制管法兰用紧固件【程哥制造】带书签版.pdf
- hg中源协和干细胞生物工程股份有限公司.pdf
文档评论(0)