SPARK大数据处理引擎(初级).ppt

下载文档

6
0
约7.96千字
约 36页
2017-07-04 发布于四川
举报
版权申诉
保障服务

SPARK大数据处理引擎(初级).ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

粗粒度、细粒度是个什么东西？ 01:8080 参考： /cn/news/2014/08/spark-hardware-configure 千万不要让集群节点的磁盘容量差异太大，否则在大数据写入并且集群使用率较大时，容易出现写失败等问题。模板来自于 * 云软件组陈修恒 SPARK 大数据处理引擎 Spark 一、Apache Spark 项目三、Spark 技术架构四、Spark 核心技术五、部署方式六、运行流程七、配置要求 Hadoop生态系统 Ambari （安装、部署、配置和管理工具） Hive （数据仓库） Pig （数据流处理） Mahout （数据挖掘库） MapReduce （分布式计算框架） HDFS （分布式文件系统） Apache Hadoop 项目 Common HDFS 一个部署在廉价的机器上、具有高度容错性的文件系统 YARN 资源调度引擎 MapReduce 基于YARN调度引擎的大数据并行处理系统 A YARN-based system for parallel processing of large data sets. Apach Spark 项目 Spark是一个快速通用的大规模数据处理框架。具有Hadoop的批处理能力，而且性能更佳。可以用于流处理、Sql统计、机器学习和图计算。 Apach Spark 项目 Apache SparkTM is a fast and general engine for large-scale data processing Apache SparkTM 是一个快速、通用的大数据处理引擎 Apache SparkTM 是Hadoop MapReduce的改进版 Spark VS Hadoop MapReduce Spark Hadoop MapRecuce 架构 Spark+ RDD RDD：由 Spark 内部维护的、基于内存的分布式数据集 MapReduce + HDFS HDFS：分布式文件系统工作量面向函数编程需要提供Map/Reduce函数。面向对象编程需要提供Map/Reduce类。数据处理 RDD 保存Map操作的结果，支持多次 Map 迭代。 Map 计算懒加载，用到时才发生计算 Map、Reduce成对出现。 Reduce 结果落地后才能被下次 Map 使用故障处理多主多备集成HDFS不会有数据丢失，其他情况会有丢失情况； standalone 启动模式 Driver 节点不能自动恢复，任务需要重新提交；依赖 HDFS 能快速恢复计算节点 Spark 技术架构 Kafka/HDFS/TCP/Flume/ZeroMQ/MQTT/Twiter Spark RDD MapReduce 函数式编程接口 Amazon EC2/Mesos/YARN 由Scala编写，支持函数式编程。支持多种数据源接入。 RDD-弹性分布式数据集，Spark将数据分布到多台机器的内存中进行并行计算。 Spark 不具备集群管理能力，需要别的软件进行管理。支持流式运算，可以从kafka等数据源不断的获取数据，并按时间切片处理。 Spark 核心技术 MapReduce 编程模型 Spark RDD Spark 运行流程 Spark Transformation Action Spark Shuffle Spark Streaming Spark SQL Spark Mllib Spark GraphX MapReduce 编程模型任何运算都可以分解成Map(映射)和Reduce(归约)两类操作 MapReduce 编程模型词频统计 to be or not to be to: 2 be: 2 or: 1 not:1 统计算法 to be or not to be MapReduce 编程模型示例：词频统计 to,be,or,not,to,be 数据切割 to,1,be,1,or,1,not,1,to,1,be,1 构造运算单元 to,2,be,2,or,1,not,1 发生计算 Reduce Map MapReduce 代码预览 to,be,or,not,to,be to,1,be,1,or,1,not,1,to,1,be,1 to,2,be,2,or,1,not,1 to be or not to be 输出结果 MapReduce 编程模型海量数据结算结果数据划分中间