大数据Spark案例及实践.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据Spark案例及实践.ppt

大数据Spark案例及实践? 刘萍 2016年10月29日—11月2日 北京培训汇报 目录 大数据技术框架 Hadoop与Spark生态系统 课程内容安排 1 2 3 3 4 4 4 五天培训内容简介 培训思考 董西成 ???硕士毕业于中国科学院(计算技术研究所); ???目前就职于hulu(北美著名在线视频公司); ???2009年开始接触hadoop,在hadoop之上进行了大 量定制和二次开发; ???技术博客:/ ???技术书籍: 2 培训老师介绍: 董西成 3 持续学习 hadoop123:董西成的微信公众号 专注于Hadoop/spark等大数据相关技术的分享 ??? 互联网领域 ü??搜索引擎,推荐系统,广告系统 ??? 电信领域 ü??用户画像,用户行为分析 ??? 医药生物领域 ü??DNA分析 ??? 视频领域 ü??视频存储,视频分析 1.?数据应?领域 ? ??? 金融领域 ü??信用卡欺诈分析,用户分析 ??? 矿产勘探领域 ü??矿产石油勘查预测 1.?数据应用领域 ? 数据源(互联网、物联网、企业数据等) ? 改编自:工业和信息化部电信研究院,“2014 大数据白皮书” 批处理 ? 交互式分析 ? 流处理 ? 数据可视化 ? 数据挖掘(数据仓库,OLAP,商务智能等) ? (4) 计算框架 (6) 数据展示 (5) 数据分析 大 数 据 技 术 框 架 资源管理 ? 数据存储(SQL和NoSQL) ? 数据收集(ETL, 提取,转换,加载) ? (3) 资源管理 (2) 数据存储 (1) 数据收集/准备 2.大数据技术框架 ? 用户 ? (分布式协调务) Zookeeper ? Flume(日志收集) ? Sqoop ? HDFS ? (分布式文件系统) YARN ? (分布式资源管理系统) Hive ? Pig ? Hbase ? (分布式数据库) 3.Hadoop生态系统 ? Ambari ? (安装部署工具) Oozie ? (作业流调度系统) MapReduce ? (离线计算) Storm ? Spark ? (内存计算) MLlib ? … … Spark ? SQL ? 计算类型及应用场景 ??? 批处理计算 ü?? 对时间没有严格要求,吞吐率要高 ??? 迭代式与DAG计算 ü?? 机器学习算法 ??? 交互式计算 ü?? 支持类SQL语言,快速进行数据分析 ??? 流式计算 ü?? 数据像流水一样进入系统,需实时对其处理和分析 ??? 高效(比MapReduce快10~100倍) ü??内存计算引擎,提供Cache机制来支持需要反复迭代计算或 者多次数据共享,减少数据读取的IO开销 ü??DAG引擎,减少多次计算之间中间结果写到HDFS的开销 ü??使用多线程池模型来减少task启动开稍,shuffle过程中避免 不必要的sort操作以及减少磁盘IO操作 ???易用 ü??提供了丰富的API,支持Java,Scala,Python和R四种语言 ü??代码量比MapReduce少2~5倍 ???与Hadoop集成 ü??读写HDFS/Hbase ü??与YARN集成 Spark特点 MPI MapReduce Spark生态系统 ? Spark Streaming 实时计算框架 Spark SQL Graphx Graph-parallel 分布式图处理框架 Mllib 机器学习算法 Spark YARN 资源管理器 HDFS 分布式文件系统 五天培训内容简介 第1天(Spark基础) Spark基础 ? Spark部署 Spark程序设计? 1.Spark概述 2.Spark核心概念 3.Spark运行模式 4.Spark在互联网公司中的应用 1.Spark本地模式 2.Hadoop集群搭建 3.Spark集群模式 1.Scala简介 2.Spark编程基础 3.Spark编程实例 五天培训内容简介 第2天(Spark SQL) Spark SQL基础 ? Spark案例 ? Spark SQL 与DataFrame 1. 背景介绍 2. Spark SQL 主要组件 3. DataFrame与DataSet 4. Tungsten Spark SQL程序设计与案例分析 1.Spark SQL程序设计基础 2.Spark SQL数据源 3.常用operation介绍 4.应用案例:篮球运动员评估系统 五天培

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档