《Hive性能调优实战》读书笔记PPT模板思维导图下载.pptxVIP

下载本文档

12
0
约2.65千字
约 28页
2023-01-12 发布于广东
举报
版权申诉

《Hive性能调优实战》读书笔记PPT模板思维导图下载.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最新版读书笔记，下载可以直接修改《Hive性能调优实战》读书笔记模板最新版本PPT书籍导读目录第2章 Hive问题排查与调优思路第1章举例感受Hive性能调优的多样性0201第3章环境搭建第4章 Hive及其相关大数据组件0304第5章深入MapReduce计算引擎第6章 HiveSQL执行计划0605目录第8章 YARN日志第7章 Hive数据处理模式0807第9章数据存储第10章发现并优化Hive中的性能问题09010第11章 Hive知识体系总结011内容摘要本书所介绍的实例都是从原理谈优化，让读者知其然也知其所以然。例如，在介绍HiveSQL调优时，我们会转换成计算引擎执行的等价代码，让读者知道HiveSQL的实际运行流程，从而直观地理解其可能引发的性能问题。第1章举例感受Hive性能调优的多样性在Hive 中，优化方式可以归结为3点，即优化存储、优化执行过程和优化作业的调度。第1章举例感受Hive性能调优的多样性1.3 感受不同数据格式对性能的提升31.1 感受改写SQL对性能的影响11.4 感受不同的表设计对性能的影响41.2 感受调整数据块大小对性能的影响21.5 调优其实不难5第2章 Hive问题排查与调优思路分布式计算和分布式存储会消耗大量的磁盘I/O和网络I/O资源，这部分资源往往成为了大数据作业的瓶颈在进行数据处理时先将计算发往数据所在的节点，将数据以键-值对作为输入，在本地处理后再以键-值对的形式发往远端的节点，这个过程通用叫法为Shuffle 使用grouping sets代替union的SQL优化。第2章 Hive问题排查与调优思路2.2 老工对Hive的调优理解2.1 小白推演Hive的优化方法2.3 总结调优的一般性过程第3章环境搭建 ● 减少Map个数，需要增大mapred.min.split.size的值，减少mapred.map.tasks的值； ● 增大Map个数，需要减少mapred.min.split.size的值，同时增大mapred.map.tasks的值。第3章环境搭建3.3 Docker搭建分布式集群33.1 Docker基础13.4 CDM搭建分布式集群43.2 Cloudera Docker搭...23.5 使用GitHub开源项目构建集群5第4章 Hive及其相关大数据组件 SQL并行执行并不会节省作业耗用的CPU 和磁盘资源，只是节省了用户等待的时间什么是数据倾斜？是指当所需处理的数据量级较大时，某个类型的节点所需要处理的数据量级，大于同类型的节点一个数量级（10倍）以上。第4章 Hive及其相关大数据组件4.3 HDFS架构4.1 Hive架构4.2 YARN组件4.4 计算引擎第5章深入MapReduce计算引擎开启hive.vectorized.execution.enabled操作，默认是关闭状态，将一个普通的查询转化为向量化查询执行是一个Hive 特性。第5章深入MapReduce计算引擎0204065.2 MapReduce作业输入5.4 MapReduce的Reduce...5.6 MapReduce的Map端聚合015.1 MapReduce整体处理过程05035.5 MapReduce的Shuffl...5.3 MapReduce的Mapper第5章深入MapReduce计算引擎5.8 MapReduce作业与Hive...5.7 MapReduce作业输出5.9 MapReduce与Tez对比第6章 HiveSQL执行计划它大大减少了扫描、过滤器、聚合和连接等典型查询操作的CPU 使用 Hive表其实是对应分布式数据存储系统中的某个目录，而Hive分区就是在原来的目录下创建一个二级子目录，如果有多个分区，则会创建相应数量的多级子目录。第6章 HiveSQL执行计划0204066.2 简单SQL的执行计划解读6.4 带聚合函数的SQL执行计划解读6.6 表连接的SQL执行计划解读016.1 查看SQL的执行计划05036.5 带窗口/分析函数的SQL执行计划...6.3 带普通函数/操作符SQL的执行计...第7章 Hive数据处理模式 ● 查看执行计划的基本信息，即explain； ● 查看执行计划的扩展信息，即explain extended； ● 查看SQL数据输入依赖的信息，即explain dependency； ● 查看SQL操作相关权限的信息，即explain authorization； ● 查看SQL的向量化描述信息，即explain vectorization。第7章 Hive数据处理模式7.2 聚合模式7.1 过滤模式7.3 连接模式第8章 YARN日志看得出来作者很有经验。第8章 YARN日志8