Shark SparkSQL 的实践探索幻灯片.pptx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Shark + SparkSQL 实践探索231564第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容Hadoop平台目前在电信经营分析系统中的应用模型分层计算分层技术分层ST层(指标, 报表展示数据)RDBMS模型计算DW层(不同维度关联汇总)Hadoop(Hive)DWD层(汇总数据)ODS层(明细数据)ETL原始数据(DB2, Oracle, CSV)越来越难以忍受问题:慢 ! Hive在一些查询场景与DB2相比效率相差甚远一些数据量不是很大的SQL-- 原因分析:由于hadoop的设计机制基于心跳的任务调度和基于jvm进程的任务启停,产生了主要性能消耗一些复杂度相对较高的SQL-- 原因分析:每个SQL会分解为多个job ,对于每个job我们已经做了充分的优化,单个job的执行时间并不长,但要等待所有这些job都执行完却要很长的总时间现状与问题Hive HQL的执行过程 大量的磁盘读写及序列化、反序列化操作,使得执行效率非常低,若出现反复的迭代运算,现象更加明显Hadoop生态系统中有没有更适合处理这种场景的架构?231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容Spark生态系统SparkSQLSharkSparkStreamingGraphxGraph-parallelMLBaseMachinelearningSparkMesosYARNTachyonHDFSSpark对比MapReduce的优势MapReduceSpark数据存储结构:磁盘hdfs文件系统的split使用内存构建弹性分布式数据集RDD,对数据进行运算和cache编程范式:Map + ReduceDAG(有向无环图):Transformation + action计算中间数据落磁盘,io及序列化、反序列化代价大计算中间数据在内存中维护,存取速度是磁盘的多个数量级Task以进程的方式维护,任务启动就有数秒Task以线程的方式维护,对小数据集的读取能达到亚秒级的延迟Spark 任务拆分优化Spark 任务调度Standalone ModeSpark on Yarn Mode231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容准实时SQL查询引擎Shark Shark是运行在Spark上的Hive? 将sql解析为在Spark上运行的task可以无缝对接HIVE Queries, 重用HIVE的SQL Parser Metastore Query Optimizer,并支持CACHE Table重写sql解析执行的operator ,底层应用Spark引擎来加速计算 231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容XX现场Spark集群情况与MapReduce集群共享系统资源:主节点(2台): spark master ha + shark server子节点(15台): standalone模式,2 spark worker + 2 StandaloneExecutor (2cpu + 4GB)spark、shark共占用系统10%的cpu和15%的内存资源Shark ClientJobtrackerHASpark MasterShark ClientShark Server2 Worker 2Executor4cpu 8GB2 Worker 2Executor4cpu 8GB2 Worker 2Executor4cpu 8GB…1 Tasktracker 19map 13reduce1 Tasktracker 19map 13reduce1 Tasktracke

您可能关注的文档

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档