了解sparksql 运行计划及优化 - 博客园.pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
了解sparksql 运行计划及优化 - 博客园

了解SparkSQL 运行计划及优化 第 1 页 共 25 页 出自石山园,博客地址:/shishanyuan 目 录 1 使用HIVE-CONSOLE 了解运行计划3 1.1 运行环境说明3 1.1.1 硬软件环境3 1.1.2 集群网络环境3 1.2 编译HIVE 4 1.2.1 下载Hive源代码包4 1.2.2 上传Hive源代码包4 1.2.3 解压缩并移动到编译目录4 1.2.4 编译Hive5 1.3 首次运行HIVE-CONSOLE 6 1.3.1 获取Spark源代码6 1.3.2 配置/etc/profile环境变量6 1.3.3 运行sbt进行编译6 1.4 使用HIVE-CONSOLE 7 1.4.1 启动hive-console 7 1.4.2 辅助命令Help和Tab键8 1.4.3 常用操作9 1.4.4 查看查询的Unresolved LogicalPlan 10 1.4.5 不同数据源的运行计划 11 1.4.6 不同查询的运行计划16 1.4.7 优化19 2 SPARKSQL调优20 2.1 并行性21 2.2 高效的数据格式22 2.2.1 数据本地性23 2.2.2 合适的数据类型23 2.2.3 合适的数据列23 2.2.4 优的数据存储格式23 2.3 内存的使用24 2.4 合适的TASK 24 2.5 其他的一些建议25 第 2 页 共 25 页 出自石山园,博客地址:/shishanyuan 了解SparkSQL 运行计划及优化 1 使用Hive-Console 了解运行计划 前面介绍了SparkSQL 的运行过程 ,罗列了很多概念很抽象,比如Unresolved LogicPlan、 LogicPlan、PhysicalPlan ,下面介绍一个工具hive/console ,来加深对SparkSQL 的运行计划 的理解。 【注】以下实验环境为第二课《Spark 编译与部署》搭建hadoop1 一台机器 1.1 运行环境说明 1.1.1硬软件环境  主机操作系统:Windows 64 位,双核4 线程,主频2.2G ,10G 内存  虚拟软件:VMware® Workstation 9.0.0 build-812388  虚拟机操作系统:CentOS6.5 64 位,单核  虚拟机运行环境:  JDK :1.7.0_55 64 位  Hadoop :2.2.0 (需要编译为64 位)  Scala :2.10.4  Spark :1.1.0 (需要编译)  Hive :0.13.1 (源代码编译,参见1.2 ) 1.1.2集群网络环境 本次实验环境只需要hadoop1 一台机器即可,网络环境配置如下 : 序号 IP 地址 机器名 类型 用户名 目录 /app 程序所在路径 /app/scala-... 1 1 hadoop1 NN/DN hadoop

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档