Spark 简介 Spark SQL 简介 Spark Streaming 简介 Spark应用场景 Spark知识分享 场景1、架构简化 – 混合式到单一架构 将Hadoop+Storm的架构,简化为Spark架构。实现一键式安装和配置,线程级别的任务监控和告警,降低硬件集群、软件维护、任务监控和应用开发的难度。后续要做成统一的硬件、计算平台资源池,发展到云计算。 Spark架构 Lambda架构 混搭架构 ETL/数据接口层 EDW MPP 透明访问/应用接口层 统一管控 混搭架构是当前运营商的自然选择,根据数据的热度和存储成本来分布。通过三者的有效融合,以提供最大的计算能力。 MPP HDFS YARN HBase MapReduce Spark Storm Streaming Hive Impala Shark MQ 原始数据层 详单/客户资料/工单/订单 汇总层 时间地域汇总/客户标签/交往圈 营销管理 专题/挖掘 一经 KPI/报表 专业集市 数据集市 Ad-hoc 自助查询 Spark(HDFS2) 抽取 SOA服务 转换 装载 元数据 关联 质量 任务执行 任务调度 数据流调度 管理监控 数据流定义 任务流定义 自定义函数 版本及发布管理 ATCA 图形化配置 Data Process Platform Control Monitor BOSS SDP CRM Billing OCS Data Source Data Destination EDW Application API Interface 场景2、自主研发ETL – 支持批量和实时接口 Gb口 DPI Wlan 1、采用Tableau作为图形化配置和管理工具,将ETL过程、原子处理等转化为Spark的Task 2、离线批量接口和实时接口采用同样的配置,只有处理的时间间隔属性不同 场景3、现有业务系统 - 改造和对比 改造流量经营系统:用Spark替换MapReduce,迁移“翻译系统”的Java代码。目标:提升性能3-5倍。 对比实时营销系统:用Streaming替换storm,采用Scala重新开发。目标:原系统对比业务满足能力和性能。 场景4、数据挖掘应用 – 增量式 传统数据挖掘、机器学习应用 复杂社会、图分析算法 谢谢! 特点:快,简单 1、结构:driver/worker,并发+内存,重复使用相同的数据作计算,即迭代最合适。ETL是否可以?是否有压缩?内存不够怎么办?直接硬盘计算、spark自己管理,LUR方式。GC问题。国内使用Yarn很多,支持yarn,读取hdfs的安全问题,这2个问题都已经解决。多人即席查询,需要Thayton来实现。 2、容错:重构,checkpoint 3、易开发:Scala/java/python;wordcount对比,map-partition-reduce,推荐Scala 4、调度:DAG/Stage,调度是优势,ms级别处理,mpp慢就在这里。粗粒度、细粒度调度 5、10G大小 6、case:10秒内响应的log出来 Streaming:小RDD。G/m,1-2秒级别。可以用spark mini-batchjob实现,但资源消耗比较大。 函数式+对象; Lisp:REPL及Common Lisp的各种实现、S-表达式、函数与变量、标准宏与自定义宏、数字与字符以及字符串、集合与向量、列表处理、文件与文件I/O处理、类、FORMAT格式、符号与包 [1] (* 5 2) //10 [2] (+ 1 2 3 4) //10 [3] (+ (* 5 2) (* 10 3) (/ 100 4)) 65 Prolog 1:事实:like(bill, book) 2: 规则:bird(x):-animal(x), has(x, feather) 3: 目标:?-student(bill) * Shark主要是将Hive的mr计算转移到Spark上。但存在两个问题: 1、mr是进程安全,为沿用优化等内容,spark需要开发和维护一个线程安全的Hive分支 2、优化完全依赖Hive的优化功能,Hive是不会考虑到Spark的优化 * Shark是采用hql来处理HDFS数据,后台隐含采用Spark+RDDs处理 Spark SQL是采用SQL+SchemaRDDs,直接读取文件,在SQL中进行处理,可以直接操作RDD中的某个行、列的数据。 * * * * * * * * * * * * * Spark知识分享 Spark 简介 Spark SQL 简介 Spark Streaming 简介 Spark应用场景 Spark知识分享 大数据架构的演进 Spark堆栈 从实例开始, 漫游Spark内核 l
您可能关注的文档
- L09_国际金融市场总汇.ppt
- Lecture2公共部门存在的理由总汇.ppt
- lecture5广告翻译总汇.ppt
- lecture6利率衍生金融工具总汇.pptx
- LED照明常见词汇中英对照(销售)总汇.doc
- lesson4DOMESTICBANKING总汇.ppt
- LETTEROFCREDIT信用证总汇.ppt
- lightscape板书总汇.doc
- Linux嵌入开发常用工具第5章总汇.ppt
- linux软件包管理管总汇.ppt
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 保障农民工工资支付协调机制和工资预防机制.docx VIP
- (35页PPT)腾讯iOA零信任安全解决方案.pptx
- 供应链管理第章.ppt VIP
- 有机化学醇酚醚.ppt VIP
- 【真题】2025年湖北省公务员考试《申论》试题及答案解析(县乡卷).pdf VIP
- 《2025年人工智能在制造业应用》.docx VIP
- 2018年浙江省杭州市中考科学试卷含答案.docx VIP
- 东北地区自然地理概况课件市公开课一等奖省赛课微课金奖课件.pptx VIP
- Power Up3课后单元测试 - U7 - Unit Test.docx VIP
- EN755-2铝及铝合金挤压杆材,管材及型材 第2部分:机械性能.doc
原创力文档

文档评论(0)