SPARK大数据处理引擎(初级).pptVIP

  • 6
  • 0
  • 约7.96千字
  • 约 36页
  • 2017-05-21 发布于四川
  • 举报
粗粒度、细粒度是个什么东西 ? 01:8080 参考: /cn/news/2014/08/spark-hardware-configure 千万不要让集群节点的磁盘容量差异太大,否则在大数据写入并且集群使用率较大时,容易出现写失败等问题。 模板来自于 * 云软件组 陈修恒 SPARK 大数据处理引擎 Spark 一、Apache Spark 项目 三、Spark 技术架构 四、Spark 核心技术 五、部署方式 六、运行流程 七、配置要求 Hadoop生态系统 Ambari (安装、部署、配置和管理工具) Hive (数据仓库) Pig (数据流处理) Mahout (数据挖掘库) MapReduce (分布式计算框架) HDFS (分布式文件系统) Apache Hadoop 项目 Common HDFS 一个部署在廉价的机器上、具有高度容错性的文件系统 YARN 资源调度引擎 MapReduce 基于YARN调度引擎的大数据并行处理系统 A YARN-based system for parallel processing of large data sets. Apach Spark 项目 Spark是一个快速通用的大规模数据处理框架。具有Hadoop的批处理能力,而且性能更佳。可以用于流处理、Sql统计、机器学习和图计算。 Apach Spa

文档评论(0)

1亿VIP精品文档

相关文档