- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Shark + SparkSQL 实践探索231564第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容Hadoop平台目前在电信经营分析系统中的应用模型分层计算分层技术分层ST层(指标, 报表展示数据)RDBMS模型计算DW层(不同维度关联汇总)Hadoop(Hive)DWD层(汇总数据)ODS层(明细数据)ETL原始数据(DB2, Oracle, CSV)越来越难以忍受问题:慢 ! Hive在一些查询场景与DB2相比效率相差甚远一些数据量不是很大的SQL-- 原因分析:由于hadoop的设计机制基于心跳的任务调度和基于jvm进程的任务启停,产生了主要性能消耗一些复杂度相对较高的SQL-- 原因分析:每个SQL会分解为多个job ,对于每个job我们已经做了充分的优化,单个job的执行时间并不长,但要等待所有这些job都执行完却要很长的总时间现状与问题Hive HQL的执行过程 大量的磁盘读写及序列化、反序列化操作,使得执行效率非常低,若出现反复的迭代运算,现象更加明显Hadoop生态系统中有没有更适合处理这种场景的架构?231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容Spark生态系统SparkSQLSharkSparkStreamingGraphxGraph-parallelMLBaseMachinelearningSparkMesosYARNTachyonHDFSSpark对比MapReduce的优势MapReduceSpark数据存储结构:磁盘hdfs文件系统的split使用内存构建弹性分布式数据集RDD,对数据进行运算和cache编程范式:Map + ReduceDAG(有向无环图):Transformation + action计算中间数据落磁盘,io及序列化、反序列化代价大计算中间数据在内存中维护,存取速度是磁盘的多个数量级Task以进程的方式维护,任务启动就有数秒Task以线程的方式维护,对小数据集的读取能达到亚秒级的延迟Spark 任务拆分优化Spark 任务调度Standalone ModeSpark on Yarn Mode231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容准实时SQL查询引擎Shark Shark是运行在Spark上的Hive? 将sql解析为在Spark上运行的task可以无缝对接HIVE Queries, 重用HIVE的SQL Parser Metastore Query Optimizer,并支持CACHE Table重写sql解析执行的operator ,底层应用Spark引擎来加速计算 231465第一代Spark准实时查询引擎: Shark为什么是 Spark第二代Spark准实时查询引擎: SparkSQLHadoop + Hive 在生产应用中的问题总结与提问Spark + Shark 在生产环境中的实践主要内容XX现场Spark集群情况与MapReduce集群共享系统资源:主节点(2台): spark master ha + shark server子节点(15台): standalone模式,2 spark worker + 2 StandaloneExecutor (2cpu + 4GB)spark、shark共占用系统10%的cpu和15%的内存资源Shark ClientJobtrackerHASpark MasterShark ClientShark Server2 Worker 2Executor4cpu 8GB2 Worker 2Executor4cpu 8GB2 Worker 2Executor4cpu 8GB…1 Tasktracker 19map 13reduce1 Tasktracker 19map 13reduce1 Tasktracke
您可能关注的文档
- 灸法排毒艾针灸医学课件.ppt
- 花生惠产品介绍及操作流程幻灯片.pptx
- 第六章站内信息增删改查的实现JDBC数据库操作.ppt
- 电动刷墙器专题讲座.ppt
- 认识记住酷晨培训课件.ppt
- 客户-宣讲平台操作指南v手册.pptx
- 直通车操作界面专题课件.pptx
- 日历中的数字规律-课件.ppt
- 有享云商新普卡报单操作手册2.0版.ppt
- 浙江省电力建设有限公司秋季安全大检查反馈.pptx
- 江苏省南京师范大学附属中学等四校2023-2024学年高二下学期六月份联考数学试卷(原卷版).docx
- 历史-四川省安宁河联盟高2022 级(2025届)2023-2024学年高二下学期期末联考试题和答案.docx
- 历史-吉林省通化市梅河口市第五中学2023--2024学年高二下学期6月月考试题和答案.docx
- 物理-浙江省宁波市2023-2024学年高二下学期6月期末考试试题和答案.docx
- 化学-吉林省通化市梅河口市第五中学2023--2024学年高二下学期6月月考试题和答案.docx
- 英语-浙江省杭州学军中学2023-2024学年高二下学期测试(五)暨6月月考试题和答案.pdf
- 生物-湖南省长沙市第一中学2023-2024学年高二下学期第二次阶段性考试暨6月月考试题和答案.docx
- 政治-吉林省通化市梅河口市第五中学2023--2024学年高二下学期6月月考试题和答案.pdf
- 数学-四川省安宁河联盟高2022 级(2025届)2023-2024学年高二下学期期末联考试题和答案.docx
- 地理-浙江省宁波市2023-2024学年高二下学期6月期末考试试题和答案.pdf
文档评论(0)