Spark技术研究与实践分享.pdf

Spark技术研究与实践分享 提纲 ●  为什么选择Spark ●  Spark实践分享 ●  使用Spark的建议 为什么选择Spark ●  多种计算场景的结合 ●  多数据源的计算中心 ●  活跃的社区支持 多种计算场景的结合 User Application 用户应用 SQL Streaming MLlib GraphX 批处理 流处理 机器学习 图计算 Spark Core (SparkContext+RDD+DAG) , 随着信息技术的发展 越来越多的企业⾯临着复杂计算场景的考验 1 机器学习的不断发展和应⽤ 2 信息时效性决定了流处理技术的重要性 3 传统业务⼈员操作熟练的SQL编写能⼒ 多种计算场景的结合 假设场景 :与新浪微博合作 ,通过一个消息队列实时接收微博信息 ,根据指定关 键字过滤消息 消 消 微 息 息 Storm 博 队 队 列 列 传统方案 :使用Storm读取消息队列内容 ,设定Bolt进行关键字过滤 多种计算场景的结合 假设场景 :与新浪微博合作 ,通过一个消息队列实时接收微博信息 ,根据指定关 键字过滤消息 ,再通过实时配置SQL对微博进行统计分析 ,生成实时报表 消 H 微 息 D Hive/ Storm 博 队 F Impala 列 S 传统方案 : 使用Storm读取消息队列内容 ,设定Bolt进行关键字过滤 ,将结果写入HDFS 使用Hive或者Impala实现SQL统计分析 多种计算场景的结合 假设场景 :与新浪微博合作 ,通过一个消息队列实时接收微博信息 ,根据指定关键字过滤消息 ,通过机 器学习 ,对关键字不断进行调整 ,再通过实时配置SQL对微博进行统计分析 ,生成实时报表 ; Hive/ 消 H Impala 微 息 D

文档评论(0)

1亿VIP精品文档

相关文档