HiveonSpark安装配置详解.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HiveonSpark安装配置详解

Hive on Spark安装配置详解本文章来自于阿里云云栖社区摘要:?本文主要记录如何安装配置Hive on Spark,并列举遇到的坑及解决办法。可进入我的博客(原文链接:/2016/10/10/Hive%20on%20Spark%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE%E8%AF%A6%E8%A7%A3/?spm=5176.100239.blogcont72228.9.Qn7zSh)查看原文。简介本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此,Hive on Spark也会比Hive on mr快。为了对比Hive on Spark和Hive on mr的速度,需要在已经安装了Hadoop集群的机器上安装Spark集群(Spark集群是建立在Hadoop集群之上的,也就是需要先装Hadoop集群,再装Spark集群,因为Spark用了Hadoop的HDFS、YARN等),然后把Hive的执行引擎设置为Spark。Spark运行模式分为三种1、Spark on YARN 2、Standalone Mode 3、Spark on Mesos。Hive on Spark默认支持Spark on YARN模式,因此我们选择Spark on YARN模式。Spark on YARN就是使用YARN作为Spark的资源管理器。分为Cluster和Client两种模式。一、环境说明本教程Hadoop相关软件全部基于CDH5.5.1,用yum安装,系统环境如下:操作系统:CentOS 7.2Hadoop 2.6.0Hive1.1.0Spark1.5.0MySQL 5.6JDK 1.8Maven 3.3.3Scala 2.10各节点规划如下:1 Goblin01nn1 jn1 rm1 worker master hive metastoremysql2 Goblin02 zk2nn2 jn2 rm2 worker hive3 Goblin03 zk3dn1 jn3 worker hive4 Goblin04 zk4 dn2 worker hive说明:Goblin01~04是每台机器的hostname,zk代表zookeeper,nn代表hadoop的namenode,dn代表datanode,jn代表journalnode,rm代表resourcemanager,worker代表Spark的slaves,master代表Spark的master二、编译和安装Spark(Spark on YARN)2.1 编译Spark源码要使用Hive on Spark,所用的Spark版本必须不包含Hive的相关jar包,hive on spark 的官网上说“Note that you must have a version of Spark which does not include the Hive jars”。在spark官网下载的编译的Spark都是有集成Hive的,因此需要自己下载源码来编译,并且编译的时候不指定Hive。我们这里用的Spark源码是spark-1.5.0-cdh5.5.1版本,下载地址如下:/cdh5/cdh/5/spark-1.5.0-cdh5.5.1-src.tar.gz下载完后用 tar xzvf命令解压,进入解压完的文件夹,准备编译。注意:编译前请确保已经安装JDK、Maven和Scala,maven为3.3.3及以上版本,并在/etc/profile里配置环境变量。命令行进入在源码根目录下,执行 ./make-distribution.sh --namehadoop2-without-hive--tgz-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided若编译过程出现内存不足的情况,需要在运行编译命令之前先运行:export MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCod

您可能关注的文档

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档