hadoop+hive+sqoop+hbase简介+安装部署.docx

下载文档 降价啦

8
0
约1.78万字
约 27页
2017-04-25 发布于湖北
举报
版权申诉
保障服务

hadoop+hive+sqoop+hbase简介+安装部署.docx

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoophivesqoophbase简介安装部署

Hadoop家族产品 Hadoop 简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop框架中最核心设计就是：HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。核心架构 Hadoop的核心就是HDFS和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop，就必须知道HDFS和MapReduce是什么。 HDFS HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。 HDFS由一个管理结点(NameNode)和N个数据结点(DataNode)组成，每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成 Block，然后这些 Block 分散地存储于不同的DataNode上，每个Block还可以复制数份存储于不同的DataNode上，达到容错容灾之目的。NameNode则是整个HDFS的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个Block，这些Block可以从哪些DataNode中获得，各个DataNode的状态等重要信息。 MapReduce 将大的数据分析分成小块逐个分析，最后再将提取出来的数据汇总分析，最终获得我们想要的内容。当然怎么分块分析，怎么做Reduce操作非常复杂，Hadoop已经提供了数据分析的实现，我们只需要编写简单的需求命令即可达成我们想要的数据 MapReduce 内部逻辑的大致流程主要由以下几步完成。 1、首先将 HDFS 中的数据以 Split 方式作为 MapReduce的输入。前面我们提到，HDFS中的数据是以block存储，这里怎么又变成了以Split作为输入呢？其实block是HDFS中的术语，Split是MapReduce中的术语。默认的情况下，一个Split可以对应一个block，当然也可以对应多个block，它们之间的对应关系是由InputFormat决定的。默认情况下，使用的是TextInputFormat，这时一个Split对应一个block。假设这里有4个block，也就是4个Split，分别为Split0、Split1、Split2和Split3。这时通过 InputFormat来读每个Split里面的数据，它会把数据解析成一个个的(key,value)，然后交给已经编写好的Mapper函数来处理。 2、每个Mapper将输入(key,value)数据解析成一个个的单词和词频，比如(a,1)、(b,1)和(c,1)等等。 3、在reduce阶段，每个reduce要进行shuffle读取它所对应的数据。当所有数据读取完之后，要经过Sort全排序，排序之后再交给Reducer做统计处理。比如，第一个Reducer读取了两个的(a,1)键值对数据，然后进行统计得出结果(a,2)。 4、将Reducer的处理结果，以OutputFormat数据格式输出到 HDFS 的各个文件路径下。这里的OutputFormat默认为TextOutputFormat，key为单词，value为词频数，key和value之间的分割符为”\tab”。由上图所示，(a 2)输出到Part-0，(b 3)输出到Part-1，(c 3)输出到Part-2。 Hadoop安装一、安装环境硬件：虚拟机操作系统：Centos 6.5 64位 IP：31 主机名：Master.hadoop 安装用户：root 二、安装JDK 安装JDK1.7或者以上版本。这里安装jdk1.7.0_79。下载地址：/technetwork/java/javase/downloads/index.html 1，下载jdk-7u79-Linux-x64.gz，解压到/usr/Java/jdk1.7.0_79。\r\n 2，在/root/.bash_profile中添加如下配置： export JAVA_HOME=/usr/java/jdk export PATH=$JAVA_HOME/bin:$PATH 3，使环境变量生效，#source ~/.bash_profile 4，安装验证# java