普开数据大数据训课程讲解:Hadoop-MapReduce教程.docVIP

  • 4
  • 0
  • 约4.84万字
  • 约 37页
  • 2016-10-09 发布于贵州
  • 举报

普开数据大数据训课程讲解:Hadoop-MapReduce教程.doc

普开数据大数据训课程讲解:Hadoop-MapReduce教程

普开数据大数据课程讲解:Hadoop Map/Reduce教程[一] 今天浏览了下hadoop的 map/reduce文档,初步感觉这东西太牛逼了,听我在这里给你吹吹。 你可以这样理解,假设你有很多台烂机器(假设1000台) 1利用hadoop他会帮你组装成一台超级计算机(集群),你的这台计算机是超多核的(很多个CPU),一个超级大的硬盘,而且容错和写入速度都很快。 2如果你的计算任务可以拆分,那么通过map/Reduce,他可以统一指挥你的那一帮烂机器,让一堆机器帮你一起干活(并行计算),谁干什么,负责什么,他来管理,通常处理个几T的数据,只要你有机器那就小CASE。 3hadoop要分析的数据通常都是巨大的(T级),网络I/O开销不可忽视,但分析程序通常不会很大,所以他传递的是计算方法(程序),而不是数据文件,所以每次计算在物理上都是在相近的节点上进行(同一台机器或同局域网),大大降低的IO消耗,而且计算程序如果要经常使用的话也是可以做缓存的。 4hadoop是一个分布式的文件系统,他就像一个管家,管理你数据的存放,在物理上较远的地方会分别存放(这样一是不同的地方读取数据都很快,也起到了异地容灾的作用),他会动态管理和调动你的数据节点,高强的容错处理,最大程度的降低数据丢失的风险。? 比较著名的应用:nutch搜索引擎的蜘蛛抓取程序,数据的存储以及pageRank(网页重

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档