Spark技术及应用研究报告.ppt

下载文档 降价啦

19
0
约 27页
2016-06-22 发布于湖北
举报
保障服务

Spark技术及应用研究报告.ppt

Spark 简介 Spark SQL 简介 Spark Streaming 简介 Spark应用场景 Spark知识分享场景1、架构简化 – 混合式到单一架构将Hadoop+Storm的架构，简化为Spark架构。实现一键式安装和配置，线程级别的任务监控和告警，降低硬件集群、软件维护、任务监控和应用开发的难度。后续要做成统一的硬件、计算平台资源池，发展到云计算。 Spark架构 Lambda架构混搭架构 ETL/数据接口层 EDW MPP 透明访问/应用接口层统一管控混搭架构是当前运营商的自然选择，根据数据的热度和存储成本来分布。通过三者的有效融合，以提供最大的计算能力。 MPP HDFS YARN HBase MapReduce Spark Storm Streaming Hive Impala Shark MQ 原始数据层详单/客户资料/工单/订单汇总层时间地域汇总/客户标签/交往圈营销管理专题/挖掘一经 KPI/报表专业集市数据集市 Ad-hoc 自助查询 Spark(HDFS2) 抽取 SOA服务转换装载元数据关联质量任务执行任务调度数据流调度管理监控数据流定义任务流定义自定义函数版本及发布管理 ATCA 图形化配置 Data Process Platform Control Monitor BOSS SDP CRM Billing OCS Data Source Data Destination EDW Application API Interface 场景2、自主研发ETL – 支持批量和实时接口 Gb口 DPI Wlan 1、采用Tableau作为图形化配置和管理工具，将ETL过程、原子处理等转化为Spark的Task 2、离线批量接口和实时接口采用同样的配置，只有处理的时间间隔属性不同场景3、现有业务系统 - 改造和对比改造流量经营系统：用Spark替换MapReduce，迁移“翻译系统”的Java代码。目标：提升性能3-5倍。对比实时营销系统：用Streaming替换storm，采用Scala重新开发。目标：原系统对比业务满足能力和性能。场景4、数据挖掘应用 – 增量式传统数据挖掘、机器学习应用复杂社会、图分析算法谢谢！特点：快，简单 1、结构：driver/worker，并发＋内存，重复使用相同的数据作计算，即迭代最合适。ETL是否可以？是否有压缩？内存不够怎么办？直接硬盘计算、ｓｐａｒｋ自己管理，ＬＵＲ方式。ＧＣ问题。国内使用Ｙａｒｎ很多，支持ｙａｒｎ，读取ｈｄｆｓ的安全问题，这２个问题都已经解决。多人即席查询，需要Ｔｈａｙｔｏｎ来实现。 2、容错：重构，ｃｈｅｃｋｐｏｉｎｔ 3、易开发：Scala/java/python；wordcount对比，map-partition-reduce，推荐Scala 4、调度：DAG/Stage，调度是优势，ms级别处理，mpp慢就在这里。粗粒度、细粒度调度 5、10G大小 6、ｃａｓｅ：１０秒内响应的ｌｏｇ出来 Streaming：小RDD。G/m，１－２秒级别。可以用ｓｐａｒｋ　ｍｉｎｉ－ｂａｔｃｈｊｏｂ实现，但资源消耗比较大。函数式+对象； Lisp：REPL及Common Lisp的各种实现、S-表达式、函数与变量、标准宏与自定义宏、数字与字符以及字符串、集合与向量、列表处理、文件与文件I/O处理、类、FORMAT格式、符号与包 [1] (* 5 2) //10 [2] (+ 1 2 3 4) //10 [3] (+ (* 5 2) (* 10 3) (/ 100 4)) 65 Prolog 1：事实：like(bill, book) 2: 规则：bird(x):-animal(x), has(x, feather) 3: 目标：?-student(bill) * Shark主要是将Hive的mr计算转移到Spark上。但存在两个问题： 1、mr是进程安全，为沿用优化等内容，spark需要开发和维护一个线程安全的Hive分支 2、优化完全依赖Hive的优化功能，Hive是不会考虑到Spark的优化 * Shark是采用hql来处理HDFS数据，后台隐含采用Spark+RDDs处理 Spark SQL是采用SQL+SchemaRDDs，直接读取文件，在SQL中进行处理，可以直接操作RDD中的某个行、列的数据。 * * * * * * * * * * * * * Spark知识分享 Spark 简介 Spark SQL 简介 Spark Streaming 简介 Spark应用场景 Spark知识分享大数据架构的演进 Spark堆栈从实例开始，漫游Spark内核 l

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Spark技术及应用研究报告.ppt