Spark技术研究与实践分享.pdf

下载文档 降价啦

3
0
约1.76万字
约 38页
2019-02-01 发布于山东
举报
保障服务

Spark技术研究与实践分享.pdf

Spark技术研究与实践分享提纲 ●  为什么选择Spark ●  Spark实践分享 ●  使用Spark的建议为什么选择Spark ●  多种计算场景的结合 ●  多数据源的计算中心 ●  活跃的社区支持多种计算场景的结合 User Application 用户应用 SQL Streaming MLlib GraphX 批处理流处理机器学习图计算 Spark Core （SparkContext＋RDD＋DAG） , 随着信息技术的发展越来越多的企业⾯临着复杂计算场景的考验 1 机器学习的不断发展和应⽤ 2 信息时效性决定了流处理技术的重要性 3 传统业务⼈员操作熟练的SQL编写能⼒多种计算场景的结合假设场景：与新浪微博合作，通过一个消息队列实时接收微博信息，根据指定关键字过滤消息消消微息息 Storm 博队队列列传统方案：使用Storm读取消息队列内容，设定Bolt进行关键字过滤多种计算场景的结合假设场景：与新浪微博合作，通过一个消息队列实时接收微博信息，根据指定关键字过滤消息，再通过实时配置SQL对微博进行统计分析，生成实时报表消 H 微息 D Hive/ Storm 博队 F Impala 列 S 传统方案：使用Storm读取消息队列内容，设定Bolt进行关键字过滤，将结果写入HDFS 使用Hive或者Impala实现SQL统计分析多种计算场景的结合假设场景：与新浪微博合作，通过一个消息队列实时接收微博信息，根据指定关键字过滤消息，通过机器学习，对关键字不断进行调整，再通过实时配置SQL对微博进行统计分析，生成实时报表； Hive/ 消 H Impala 微息 D

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Spark技术研究与实践分享.pdf