- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据Spark案例及实践? 刘萍 2016年10月29日—11月2日 北京培训汇报 目录 大数据技术框架 Hadoop与Spark生态系统 课程内容安排 1 2 3 1 培训老师简介 2 Hardoop与Spark生态系统 3 4 4 4 4 五天培训内容简介 培训思考 董西成 ???硕士毕业于中国科学院(计算技术研究所); ???目前就职于hulu(北美著名在线视频公司); ???2009年开始接触hadoop,在hadoop之上进行了大 量定制和二次开发; ???技术博客:/ ???技术书籍: 2 培训老师介绍: 董西成 3 持续学习 hadoop123:董西成的微信公众号 专注于Hadoop/spark等大数据相关技术的分享 ??? 互联网领域 ü??搜索引擎,推荐系统,广告系统 ??? 电信领域 ü??用户画像,用户行为分析 ??? 医药生物领域 ü??DNA分析 ??? 视频领域 ü??视频存储,视频分析 1.?数据应?领域 ? ??? 金融领域 ü??信用卡欺诈分析,用户分析 ??? 矿产勘探领域 ü??矿产石油勘查预测 1.?数据应用领域 ? 数据源(互联网、物联网、企业数据等) ? 改编自:工业和信息化部电信研究院,“2014 大数据白皮书” 批处理 ? 交互式分析 ? 流处理 ? 数据可视化 ? 数据挖掘(数据仓库,OLAP,商务智能等) ? (4) 计算框架 (6) 数据展示 (5) 数据分析 大 数 据 技 术 框 架 资源管理 ? 数据存储(SQL和NoSQL) ? 数据收集(ETL, 提取,转换,加载) ? (3) 资源管理 (2) 数据存储 (1) 数据收集/准备 2.大数据技术框架 ? 用户 ? (分布式协调务) Zookeeper ? Flume(日志收集) ? Sqoop ? HDFS ? (分布式文件系统) YARN ? (分布式资源管理系统) Hive ? Pig ? Hbase ? (分布式数据库) 3.Hadoop生态系统 ? Ambari ? (安装部署工具) Oozie ? (作业流调度系统) MapReduce ? (离线计算) Storm ? Spark ? (内存计算) MLlib ? … … Spark ? SQL ? 计算类型及应用场景 ??? 批处理计算 ü?? 对时间没有严格要求,吞吐率要高 ??? 迭代式与DAG计算 ü?? 机器学习算法 ??? 交互式计算 ü?? 支持类SQL语言,快速进行数据分析 ??? 流式计算 ü?? 数据像流水一样进入系统,需实时对其处理和分析 ??? 高效(比MapReduce快10~100倍) ü??内存计算引擎,提供Cache机制来支持需要反复迭代计算或 者多次数据共享,减少数据读取的IO开销 ü??DAG引擎,减少多次计算之间中间结果写到HDFS的开销 ü??使用多线程池模型来减少task启动开稍,shuffle过程中避免 不必要的sort操作以及减少磁盘IO操作 ???易用 ü??提供了丰富的API,支持Java,Scala,Python和R四种语言 ü??代码量比MapReduce少2~5倍 ???与Hadoop集成 ü??读写HDFS/Hbase ü??与YARN集成 Spark特点 MPI MapReduce Spark生态系统 ? Spark Streaming 实时计算框架 Spark SQL Graphx Graph-parallel 分布式图处理框架 Mllib 机器学习算法 Spark YARN 资源管理器 HDFS 分布式文件系统 五天培训内容简介 第1天(Spark基础) Spark基础 ? Spark部署 Spark程序设计? 1.Spark概述 2.Spark核心概念 3.Spark运行模式 4.Spark在互联网公司中的应用 1.Spark本地模式 2.Hadoop集群搭建 3.Spark集群模式 1.Scala简介 2.Spark编程基础 3.Spark编程实例 五天培训内容简介 第2天(Spark SQL) Spark SQL基础 ? Spark案例 ? Spark SQL 与DataFrame 1. 背景介绍 2. Spark SQL
您可能关注的文档
- 多一些宽容发布时间201020.ppt
- 多元线性回归方程.ppt
- 多功能绿色动力小型挖掘机.doc
- 多变量自校正控制器.ppt
- 多媒体中心第二版系统说明-数位典藏技术发展组.ppt
- 多媒体动画制作工具Flash基础.ppt
- 多媒体技术在结构化学课程中的应用-南开大学结构化学精品课程.ppt
- 多媒体概论篇.ppt
- 多媒体课件的教学设计和制作.ppt
- 多孔淀粉的形成过程-食品与生物技术学报.pdf
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 《土工试验方法标准》GBT 50123-2019专家导读.pdf VIP
- 24春国开《EXCEL在财务中的应用》历届期末考试题及答案.pdf VIP
- 民办非企业单位内部管理制度汇编.doc VIP
- GB∕T33000-2025《大中型企业安全生产标准化管理体系要求》审核(评审)指导之10现场管理:“10.4异常处置”要素提问、专业解答和证实(雷泽佳编制2025A0).pdf VIP
- 电费补助领取流程.docx VIP
- 广日电梯G·Exc电气原理图K3800396.pdf VIP
- 项目管理的8个表格-V3.0.xlsx VIP
- GB∕T33000-2025《大中型企业安全生产标准化管理体系要求》审核(评审)指导之8:”8事故隐患排查治理”要素提问、专业解答和证实(雷泽佳编制2025A0).pdf VIP
- 多渠道营销活动推广计划表.doc VIP
- 译林版版英语六年级上册期末复习培优试卷测试题(带答案).pdf VIP
原创力文档


文档评论(0)