《Hive性能调优实战》读书笔记PPT模板思维导图下载.pptxVIP

《Hive性能调优实战》读书笔记PPT模板思维导图下载.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最新版读书笔记,下载可以直接修改《Hive性能调优实战》读书笔记模板最新版本PPT书籍导读目录第2章 Hive问题排查与调优思路第1章 举例感受Hive性能调优的多样性0201第3章 环境搭建第4章 Hive及其相关大数据组件0304第5章 深入MapReduce计算引擎第6章 HiveSQL执行计划0605目录第8章 YARN日志第7章 Hive数据处理模式0807第9章 数据存储第10章 发现并优化Hive中的性能问题09010第11章 Hive知识体系总结011内容摘要本书所介绍的实例都是从原理谈优化,让读者知其然也知其所以然。例如,在介绍HiveSQL调优时,我们会转换成计算引擎执行的等价代码,让读者知道HiveSQL的实际运行流程,从而直观地理解其可能引发的性能问题。第1章 举例感受Hive性能调优的多样性在Hive 中,优化方式可以归结为3点,即优化存储、优化执行过程和优化作业的调度。第1章 举例感受Hive性能调优的多样性1.3 感受不同数据格式对性能的提升31.1 感受改写SQL对性能的影响11.4 感受不同的表设计对性能的影响41.2 感受调整数据块大小对性能的影响21.5 调优其实不难5第2章 Hive问题排查与调优思路 分布式计算和分布式存储会消耗大量的磁盘I/O和网络I/O资源,这部分资源往往成为了大数据作业的瓶颈 在进行数据处理时先将计算发往数据所在的节点,将数据以键-值对作为输入,在本地处理后再以键-值对的形式发往远端的节点,这个过程通用叫法为Shuffle 使用grouping sets代替union的SQL优化。第2章 Hive问题排查与调优思路2.2 老工对Hive的调优理解2.1 小白推演Hive的优化方法2.3 总结调优的一般性过程第3章 环境搭建 ● 减少Map个数,需要增大mapred.min.split.size的值,减少mapred.map.tasks的值; ● 增大Map个数,需要减少mapred.min.split.size的值,同时增大mapred.map.tasks的值。第3章 环境搭建3.3 Docker搭建分布式集群33.1 Docker基础13.4 CDM搭建分布式集群43.2 Cloudera Docker搭...23.5 使用GitHub开源项目构建集群5第4章 Hive及其相关大数据组件 SQL并行执行并不会节省作业耗用的CPU 和磁盘资源,只是节省了用户等待的时间 什么是数据倾斜?是指当所需处理的数据量级较大时,某个类型的节点所需要处理的数据量级,大于同类型的节点一个数量级(10倍)以上。第4章 Hive及其相关大数据组件4.3 HDFS架构4.1 Hive架构4.2 YARN组件4.4 计算引擎第5章 深入MapReduce计算引擎 开启hive.vectorized.execution.enabled操作,默认是关闭状态,将一个普通的查询转化为向量化查询执行是一个Hive 特性。第5章 深入MapReduce计算引擎0204065.2 MapReduce作业输入5.4 MapReduce的Reduce...5.6 MapReduce的Map端聚合015.1 MapReduce整体处理过程05035.5 MapReduce的Shuffl...5.3 MapReduce的Mapper第5章 深入MapReduce计算引擎5.8 MapReduce作业与Hive...5.7 MapReduce作业输出5.9 MapReduce与Tez对比第6章 HiveSQL执行计划它大大减少了扫描、过滤器、聚合和连接等典型查询操作的CPU 使用 Hive表其实是对应分布式数据存储系统中的某个目录,而Hive分区就是在原来的目录下创建一个二级子目录,如果有多个分区,则会创建相应数量的多级子目录。第6章 HiveSQL执行计划0204066.2 简单SQL的执行计划解读6.4 带聚合函数的SQL执行计划解读6.6 表连接的SQL执行计划解读016.1 查看SQL的执行计划05036.5 带窗口/分析函数的SQL执行计划...6.3 带普通函数/操作符SQL的执行计...第7章 Hive数据处理模式 ● 查看执行计划的基本信息,即explain; ● 查看执行计划的扩展信息,即explain extended; ● 查看SQL数据输入依赖的信息,即explain dependency; ● 查看SQL操作相关权限的信息,即explain authorization; ● 查看SQL的向量化描述信息,即explain vectorization。第7章 Hive数据处理模式7.2 聚合模式7.1 过滤模式7.3 连接模式第8章 YARN日志看得出来作者很有经验。第8章 YARN日志8

文档评论(0)

智慧城市智能制造数字化 + 关注
实名认证
文档贡献者

高级系统架构设计师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年07月09日上传了高级系统架构设计师

1亿VIP精品文档

相关文档