- 9
- 0
- 约5.78万字
- 约 42页
- 2017-05-04 发布于四川
- 举报
javaHadoopMapReduce的教程
原文地址
HYPERLINK /165162897/blog/1257776641 /165162897/blog/1257776641
Hadoop Map/Reduce教程[一]
HYPERLINK javascript:; 编辑 | HYPERLINK javascript:; 删除 | HYPERLINK javascript:; 权限设置 | HYPERLINK javascript:; 更多▼
HYPERLINK javascript:; 更多▲
设置置顶
推荐日志
转为私密日志
HYPERLINK /165162897 \t _blank 开心延年 ?? 发表于2009年11月02日 00:15 阅读(10) 评论(1) 分类: HYPERLINK javascript:; \t _blank 搜索与存储 权限: 公开
今天浏览了下hadoop的 map/reduce文档,初步感觉这东西太牛逼了,听我在这里给你吹吹。
你可以这样理解,假设你有很多台烂机器(假设1000台)
1.利用hadoop他会帮你组装成一台超级计算机(集群),你的这台计算机是超多核的(很多个CPU),一个超级大的硬盘,而且容错和写入速度都很快。
2.如果你的计算任务可以拆分,那么通过map/Reduce,他可以统一指挥你的那一帮烂机器,让一堆机器帮你一起干活(并行计算),谁干什么,负责什么,他来管理,通常处理个几T的数据,只要你有机器那就小CASE。
3.hadoop要分析的数据通常都是巨大的(T级),网络I/O开销不可忽视,但分析程序通常不会很大,所以他传递的是计算方法(程序),而不是数据文件,所以每次计算在物理上都是在相近的节点上进行(同一台机器或同局域网),大大降低的IO消耗,而且计算程序如果要经常使用的话也是可以做缓存的。
4.hadoop是一个分布式的文件系统,他就像一个管家,管理你数据的存放,在物理上较远的地方会分别存放(这样一是不同的地方读取数据都很快,也起到了异地容灾的作用),他会动态管理和调动你的数据节点,高强的容错处理,最大程度的降低数据丢失的风险。
?
比较著名的应用:nutch搜索引擎的蜘蛛抓取程序,数据的存储以及pageRank(网页重要程序)计算。QQ空间的日志分析处理(PV,UV)
?
咋样,给他吹的够牛了吧。下面是别人翻译的官方文档,经常做日志分析处理的同学可以研究下。
目的
这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。
先决条件
请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:
HYPERLINK /doc/quickstart.html \t _blank Hadoop快速入门对初次使用者。
HYPERLINK /doc/cluster_setup.html \t _blank Hadoop集群搭建对大规模分布式集群。
概述
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。
一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。 整个框架负责任务的调度和监控,以及重新执行已经失败的任务。
通常,Map/Reduce框架和 HYPERLINK /doc/hdfs_design.html \t _blank 分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。
Map/Reduce框架由一个单独的master JobTracker 和每个集群节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上,master监控它们的执行,重新执行已经失败的任务。而slave仅负责执行由master指派的任务。
应用程序至少应该指明输入/输出的位置(路径),并通过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参数,就构成了作业配置(job configuration)。然后,Hadoop的 job client提交作业(jar包/可执行程序等)和配置信息给JobTracker,后者负责分发这些软件和配置信息给slave、调
原创力文档

文档评论(0)