普开数据大数据训课程讲解：Hadoop-MapReduce教程.docVIP

下载本文档

4
0
约4.84万字
约 37页
2016-10-09 发布于贵州
举报

普开数据大数据训课程讲解：Hadoop-MapReduce教程.doc

普开数据大数据训课程讲解：Hadoop-MapReduce教程

普开数据大数据课程讲解：Hadoop Map/Reduce教程[一] 今天浏览了下hadoop的 map/reduce文档，初步感觉这东西太牛逼了，听我在这里给你吹吹。你可以这样理解，假设你有很多台烂机器（假设1000台） 1利用hadoop他会帮你组装成一台超级计算机（集群），你的这台计算机是超多核的（很多个CPU），一个超级大的硬盘，而且容错和写入速度都很快。 2如果你的计算任务可以拆分，那么通过map/Reduce,他可以统一指挥你的那一帮烂机器，让一堆机器帮你一起干活（并行计算），谁干什么，负责什么，他来管理，通常处理个几T的数据，只要你有机器那就小CASE。 3hadoop要分析的数据通常都是巨大的(T级)，网络I/O开销不可忽视，但分析程序通常不会很大，所以他传递的是计算方法（程序），而不是数据文件，所以每次计算在物理上都是在相近的节点上进行（同一台机器或同局域网），大大降低的IO消耗，而且计算程序如果要经常使用的话也是可以做缓存的。 4hadoop是一个分布式的文件系统，他就像一个管家，管理你数据的存放，在物理上较远的地方会分别存放（这样一是不同的地方读取数据都很快，也起到了异地容灾的作用），他会动态管理和调动你的数据节点，高强的容错处理，最大程度的降低数据丢失的风险。? 比较著名的应用：nutch搜索引擎的蜘蛛抓取程序，数据的存储以及pageRank(网页重

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

普开数据大数据训课程讲解：Hadoop-MapReduce教程.docVIP