了解sparksql 运行计划及优化 - 博客园.pdf

下载文档 降价啦

82
0
约1.46万字
约 25页
2017-09-02 发布于天津
举报
版权申诉
保障服务

了解sparksql 运行计划及优化 - 博客园.pdf

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

了解sparksql 运行计划及优化 - 博客园

了解SparkSQL 运行计划及优化第 1 页共 25 页出自石山园，博客地址：/shishanyuan 目录 1 使用HIVE-CONSOLE 了解运行计划3 1.1 运行环境说明3 1.1.1 硬软件环境3 1.1.2 集群网络环境3 1.2 编译HIVE 4 1.2.1 下载Hive源代码包4 1.2.2 上传Hive源代码包4 1.2.3 解压缩并移动到编译目录4 1.2.4 编译Hive5 1.3 首次运行HIVE-CONSOLE 6 1.3.1 获取Spark源代码6 1.3.2 配置/etc/profile环境变量6 1.3.3 运行sbt进行编译6 1.4 使用HIVE-CONSOLE 7 1.4.1 启动hive-console 7 1.4.2 辅助命令Help和Tab键8 1.4.3 常用操作9 1.4.4 查看查询的Unresolved LogicalPlan 10 1.4.5 不同数据源的运行计划 11 1.4.6 不同查询的运行计划16 1.4.7 优化19 2 SPARKSQL调优20 2.1 并行性21 2.2 高效的数据格式22 2.2.1 数据本地性23 2.2.2 合适的数据类型23 2.2.3 合适的数据列23 2.2.4 优的数据存储格式23 2.3 内存的使用24 2.4 合适的TASK 24 2.5 其他的一些建议25 第 2 页共 25 页出自石山园，博客地址：/shishanyuan 了解SparkSQL 运行计划及优化 1 使用Hive-Console 了解运行计划前面介绍了SparkSQL 的运行过程，罗列了很多概念很抽象，比如Unresolved LogicPlan、 LogicPlan、PhysicalPlan ，下面介绍一个工具hive/console ，来加深对SparkSQL 的运行计划的理解。【注】以下实验环境为第二课《Spark 编译与部署》搭建hadoop1 一台机器 1.1 运行环境说明 1.1.1硬软件环境  主机操作系统：Windows 64 位，双核4 线程，主频2.2G ，10G 内存  虚拟软件：VMware® Workstation 9.0.0 build-812388  虚拟机操作系统：CentOS6.5 64 位，单核  虚拟机运行环境：  JDK ：1.7.0_55 64 位  Hadoop ：2.2.0 （需要编译为64 位）  Scala ：2.10.4  Spark ：1.1.0 （需要编译）  Hive ：0.13.1 （源代码编译，参见1.2 ） 1.1.2集群网络环境本次实验环境只需要hadoop1 一台机器即可，网络环境配置如下：序号 IP 地址机器名类型用户名目录 /app 程序所在路径 /app/scala-... 1 1 hadoop1 NN/DN hadoop