Hadoop宝典-计算机.docVIP

下载本文档

43
0
约2.26万字
约 31页
2018-01-04 发布于广东
举报

Hadoop宝典-计算机.doc

Hadoop宝典 Hadoop： mapReduce的编程 V K 解决方案：搭好框架，写出map和reduce的参数数据切分和写一个javabean 填充代码。请简述一下yarn的工作流程？一个完整的YARN Application需要包括那些组件？请简述一下Hadoop/MapReduce， Spark ， Strom ， Hive的特点及适用场景？ Hadoop ：是一种分布式系统基础架构当处理海量数据的程序，开始要求高可靠、高扩展、高效、低容错、低成本的场景 MapReduce： MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。MapReduce的典型应用场景中，目前日志分析用的比较多，还有做搜素的索引，机器学习算法包mahout也是之一，当然它能做的东西还有很多，比如数据挖掘、信息提取。 Spark：拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。数据过于繁杂，并且需要让计算通过迭代，并在内存中，极大地提高效率的场景一个分布式实时计算系统，Storm是一个任务并行连续计算引擎。 Storm本身并不典型在Hadoop集群上运行，它使用Apache ZooKe

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Hadoop宝典-计算机.docVIP