Shark SparkSQL 的实践探索幻灯片.pptx

下载文档 降价啦

5
0
约6.41千字
约 36页
2019-06-29 发布于山东
举报
版权申诉
保障服务

Shark SparkSQL 的实践探索幻灯片.pptx

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Shark + SparkSQL 实践探索231564第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容Hadoop平台目前在电信经营分析系统中的应用模型分层计算分层技术分层ST层(指标, 报表展示数据)RDBMS模型计算DW层(不同维度关联汇总)Hadoop(Hive)DWD层(汇总数据)ODS层(明细数据)ETL原始数据(DB2, Oracle, CSV)越来越难以忍受问题：慢！ Hive在一些查询场景与DB2相比效率相差甚远一些数据量不是很大的SQL-- 原因分析：由于hadoop的设计机制基于心跳的任务调度和基于jvm进程的任务启停，产生了主要性能消耗一些复杂度相对较高的SQL-- 原因分析：每个SQL会分解为多个job ，对于每个job我们已经做了充分的优化，单个job的执行时间并不长，但要等待所有这些job都执行完却要很长的总时间现状与问题Hive HQL的执行过程大量的磁盘读写及序列化、反序列化操作，使得执行效率非常低，若出现反复的迭代运算，现象更加明显Hadoop生态系统中有没有更适合处理这种场景的架构？231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容Spark生态系统SparkSQLSharkSparkStreamingGraphxGraph-parallelMLBaseMachinelearningSparkMesosYARNTachyonHDFSSpark对比MapReduce的优势MapReduceSpark数据存储结构：磁盘hdfs文件系统的split使用内存构建弹性分布式数据集RDD，对数据进行运算和cache编程范式：Map + ReduceDAG(有向无环图)：Transformation + action计算中间数据落磁盘，io及序列化、反序列化代价大计算中间数据在内存中维护，存取速度是磁盘的多个数量级Task以进程的方式维护，任务启动就有数秒Task以线程的方式维护，对小数据集的读取能达到亚秒级的延迟Spark 任务拆分优化Spark 任务调度Standalone ModeSpark on Yarn Mode231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容准实时SQL查询引擎Shark Shark是运行在Spark上的Hive? 将sql解析为在Spark上运行的task可以无缝对接HIVE Queries, 重用HIVE的SQL Parser Metastore Query Optimizer，并支持CACHE Table重写sql解析执行的operator ，底层应用Spark引擎来加速计算 231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容XX现场Spark集群情况与MapReduce集群共享系统资源:主节点(2台): spark master ha + shark server子节点(15台): standalone模式，2 spark worker + 2 StandaloneExecutor (2cpu + 4GB)spark、shark共占用系统10%的cpu和15%的内存资源Shark ClientJobtrackerHASpark MasterShark ClientShark Server2 Worker 2Executor4cpu 8GB2 Worker 2Executor4cpu 8GB2 Worker 2Executor4cpu 8GB…1 Tasktracker 19map 13reduce1 Tasktracker 19map 13reduce1 Tasktracke