Spark技术研究与实践分享
提纲
● 为什么选择Spark
● Spark实践分享
● 使用Spark的建议
为什么选择Spark
● 多种计算场景的结合
● 多数据源的计算中心
● 活跃的社区支持
多种计算场景的结合
User Application
用户应用
SQL Streaming MLlib GraphX
批处理 流处理 机器学习 图计算
Spark Core
(SparkContext+RDD+DAG)
,
随着信息技术的发展 越来越多的企业⾯临着复杂计算场景的考验
1 机器学习的不断发展和应⽤
2 信息时效性决定了流处理技术的重要性
3 传统业务⼈员操作熟练的SQL编写能⼒
多种计算场景的结合
假设场景 :与新浪微博合作 ,通过一个消息队列实时接收微博信息 ,根据指定关
键字过滤消息
消 消
微 息 息
Storm
博 队 队
列 列
传统方案 :使用Storm读取消息队列内容 ,设定Bolt进行关键字过滤
多种计算场景的结合
假设场景 :与新浪微博合作 ,通过一个消息队列实时接收微博信息 ,根据指定关
键字过滤消息 ,再通过实时配置SQL对微博进行统计分析 ,生成实时报表
消 H
微 息 D Hive/
Storm
博 队 F Impala
列 S
传统方案 :
使用Storm读取消息队列内容 ,设定Bolt进行关键字过滤 ,将结果写入HDFS
使用Hive或者Impala实现SQL统计分析
多种计算场景的结合
假设场景 :与新浪微博合作 ,通过一个消息队列实时接收微博信息 ,根据指定关键字过滤消息 ,通过机
器学习 ,对关键字不断进行调整 ,再通过实时配置SQL对微博进行统计分析 ,生成实时报表 ;
Hive/
消 H Impala
微 息 D
您可能关注的文档
最近下载
- 心脑血管的危害和防治.ppt
- 上海2024年高考英语试卷.doc VIP
- 2026春新版人教版八年级下册单词默写单词表(全)U1-U8中译英.docx
- 07 王涛-教师资格-数学学科知识与教学能力(高中)-第三部分第五章至第八章(46-48讲).pdf VIP
- 《业财一体化实训教程-----金蝶云星空V7.5》.pptx VIP
- 2014广东粤西北事业单位考试真题及答案——通用类.doc VIP
- 基于PLC的运料小车自动控制设计研究.docx VIP
- ISO 9001(DIS)-2026《质量管理体系——要求》(含附录使用指南-中文版-译-2025年9月).docx VIP
- 《宋代点茶文化与艺术》全套教学课件.pptx
- 年产3000吨猕猴桃果汁工厂设计_毕业设计.doc VIP
原创力文档

文档评论(0)