HiveonSpark安装配置详解.docx

下载文档

18
0
约9.04千字
约 14页
2017-09-11 发布于上海
举报
版权申诉
保障服务

HiveonSpark安装配置详解.docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

HiveonSpark安装配置详解

Hive on Spark安装配置详解本文章来自于阿里云云栖社区摘要：?本文主要记录如何安装配置Hive on Spark，并列举遇到的坑及解决办法。可进入我的博客（原文链接：/2016/10/10/Hive%20on%20Spark%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE%E8%AF%A6%E8%A7%A3/?spm=5176.100239.blogcont72228.9.Qn7zSh）查看原文。简介本文主要记录如何安装配置Hive on Spark，在执行以下步骤之前，请先确保已经安装Hadoop集群，Hive，MySQL，JDK，Scala，具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎，即Hive on mr。实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。因此，Hive on Spark也会比Hive on mr快。为了对比Hive on Spark和Hive on mr的速度，需要在已经安装了Hadoop集群的机器上安装Spark集群（Spark集群是建立在Hadoop集群之上的，也就是需要先装Hadoop集群，再装Spark集群，因为Spark用了Hadoop的HDFS、YARN等），然后把Hive的执行引擎设置为Spark。Spark运行模式分为三种1、Spark on YARN 2、Standalone Mode 3、Spark on Mesos。Hive on Spark默认支持Spark on YARN模式，因此我们选择Spark on YARN模式。Spark on YARN就是使用YARN作为Spark的资源管理器。分为Cluster和Client两种模式。一、环境说明本教程Hadoop相关软件全部基于CDH5.5.1，用yum安装，系统环境如下：操作系统：CentOS 7.2Hadoop 2.6.0Hive1.1.0Spark1.5.0MySQL 5.6JDK 1.8Maven 3.3.3Scala 2.10各节点规划如下：1 Goblin01nn1 jn1 rm1 worker master hive metastoremysql2 Goblin02 zk2nn2 jn2 rm2 worker hive3 Goblin03 zk3dn1 jn3 worker hive4 Goblin04 zk4 dn2 worker hive说明：Goblin01~04是每台机器的hostname，zk代表zookeeper，nn代表hadoop的namenode，dn代表datanode，jn代表journalnode，rm代表resourcemanager，worker代表Spark的slaves，master代表Spark的master二、编译和安装Spark（Spark on YARN）2.1 编译Spark源码要使用Hive on Spark，所用的Spark版本必须不包含Hive的相关jar包，hive on spark 的官网上说“Note that you must have a version of Spark which does not include the Hive jars”。在spark官网下载的编译的Spark都是有集成Hive的，因此需要自己下载源码来编译，并且编译的时候不指定Hive。我们这里用的Spark源码是spark-1.5.0-cdh5.5.1版本,下载地址如下：/cdh5/cdh/5/spark-1.5.0-cdh5.5.1-src.tar.gz下载完后用 tar xzvf命令解压，进入解压完的文件夹，准备编译。注意：编译前请确保已经安装JDK、Maven和Scala，maven为3.3.3及以上版本，并在/etc/profile里配置环境变量。命令行进入在源码根目录下，执行 ./make-distribution.sh --namehadoop2-without-hive--tgz-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided若编译过程出现内存不足的情况，需要在运行编译命令之前先运行：export MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCod