Spark技术及应用研究报告.ppt

Spark 简介 Spark SQL 简介 Spark Streaming 简介 Spark应用场景 Spark知识分享 场景1、架构简化 – 混合式到单一架构 将Hadoop+Storm的架构,简化为Spark架构。实现一键式安装和配置,线程级别的任务监控和告警,降低硬件集群、软件维护、任务监控和应用开发的难度。后续要做成统一的硬件、计算平台资源池,发展到云计算。 Spark架构 Lambda架构 混搭架构 ETL/数据接口层 EDW MPP 透明访问/应用接口层 统一管控 混搭架构是当前运营商的自然选择,根据数据的热度和存储成本来分布。通过三者的有效融合,以提供最大的计算能力。 MPP HDFS YARN HBase MapReduce Spark Storm Streaming Hive Impala Shark MQ 原始数据层 详单/客户资料/工单/订单 汇总层 时间地域汇总/客户标签/交往圈 营销管理 专题/挖掘 一经 KPI/报表 专业集市 数据集市 Ad-hoc 自助查询 Spark(HDFS2) 抽取 SOA服务 转换 装载 元数据 关联 质量 任务执行 任务调度 数据流调度 管理监控 数据流定义 任务流定义 自定义函数 版本及发布管理 ATCA 图形化配置 Data Process Platform Control Monitor BOSS SDP CRM Billing OCS Data Source Data Destination EDW Application API Interface 场景2、自主研发ETL – 支持批量和实时接口 Gb口 DPI Wlan 1、采用Tableau作为图形化配置和管理工具,将ETL过程、原子处理等转化为Spark的Task 2、离线批量接口和实时接口采用同样的配置,只有处理的时间间隔属性不同 场景3、现有业务系统 - 改造和对比 改造流量经营系统:用Spark替换MapReduce,迁移“翻译系统”的Java代码。目标:提升性能3-5倍。 对比实时营销系统:用Streaming替换storm,采用Scala重新开发。目标:原系统对比业务满足能力和性能。 场景4、数据挖掘应用 – 增量式 传统数据挖掘、机器学习应用 复杂社会、图分析算法 谢谢! 特点:快,简单 1、结构:driver/worker,并发+内存,重复使用相同的数据作计算,即迭代最合适。ETL是否可以?是否有压缩?内存不够怎么办?直接硬盘计算、spark自己管理,LUR方式。GC问题。国内使用Yarn很多,支持yarn,读取hdfs的安全问题,这2个问题都已经解决。多人即席查询,需要Thayton来实现。 2、容错:重构,checkpoint 3、易开发:Scala/java/python;wordcount对比,map-partition-reduce,推荐Scala 4、调度:DAG/Stage,调度是优势,ms级别处理,mpp慢就在这里。粗粒度、细粒度调度 5、10G大小 6、case:10秒内响应的log出来 Streaming:小RDD。G/m,1-2秒级别。可以用spark mini-batchjob实现,但资源消耗比较大。 函数式+对象; Lisp:REPL及Common Lisp的各种实现、S-表达式、函数与变量、标准宏与自定义宏、数字与字符以及字符串、集合与向量、列表处理、文件与文件I/O处理、类、FORMAT格式、符号与包 [1] (* 5 2) //10 [2] (+ 1 2 3 4) //10 [3] (+ (* 5 2) (* 10 3) (/ 100 4)) 65 Prolog 1:事实:like(bill, book) 2: 规则:bird(x):-animal(x), has(x, feather) 3: 目标:?-student(bill) * Shark主要是将Hive的mr计算转移到Spark上。但存在两个问题: 1、mr是进程安全,为沿用优化等内容,spark需要开发和维护一个线程安全的Hive分支 2、优化完全依赖Hive的优化功能,Hive是不会考虑到Spark的优化 * Shark是采用hql来处理HDFS数据,后台隐含采用Spark+RDDs处理 Spark SQL是采用SQL+SchemaRDDs,直接读取文件,在SQL中进行处理,可以直接操作RDD中的某个行、列的数据。 * * * * * * * * * * * * * Spark知识分享 Spark 简介 Spark SQL 简介 Spark Streaming 简介 Spark应用场景 Spark知识分享 大数据架构的演进 Spark堆栈 从实例开始, 漫游Spark内核 l

文档评论(0)

1亿VIP精品文档

相关文档