Hadoop宝典-计算机.docVIP

  • 43
  • 0
  • 约2.26万字
  • 约 31页
  • 2018-01-04 发布于广东
  • 举报
Hadoop宝典 Hadoop: mapReduce的编程 V K 解决方案: 搭好框架,写出map和reduce的参数 数据切分和写一个javabean 填充代码。 请简述一下yarn的工作流程?一个完整的YARN Application需要包括那些组件? 请简述一下Hadoop/MapReduce, Spark , Strom , Hive的特点及适用场景? Hadoop :是一种分布式系统基础架构当处理海量数据的程序,开始要求高可靠、高扩展、高效、低容错、低成本的场景 MapReduce: MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce的典型应用场景中,目前日志分析用的比较多,还有做搜素的索引,机器学习算法包mahout也是之一,当然它能做的东西还有很多,比如数据挖掘、信息提取。 Spark:拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。数据过于繁杂,并且需要让计算通过迭代,并在内存中,极大地提高效率的场景一个分布式实时计算系统,Storm是一个任务并行连续计算引擎。 Storm本身并不典型在Hadoop集群上运行,它使用Apache ZooKe

文档评论(0)

1亿VIP精品文档

相关文档