- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoophivesqoophbase简介安装部署
Hadoop家族产品
Hadoop
简介
Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。
Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。
核心架构
Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。
HDFS
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
HDFS由一个管理结点(NameNode)和N个数据结点(DataNode)组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成 Block,然后这些 Block 分散地存储于不同的DataNode上,每个Block还可以复制数份存储于不同的DataNode上,达到容错容灾之目的。NameNode则是整个HDFS的核心,它通过维护一些数据结构,记录了每一个文件被切割成了多少个Block,这些Block可以从哪些DataNode中获得,各个DataNode的状态等重要信息。
MapReduce
将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。当然怎么分块分析,怎么做Reduce操作非常复杂,Hadoop已经提供了数据分析的实现,我们只需要编写简单的需求命令即可达成我们想要的数据
MapReduce 内部逻辑的大致流程主要由以下几步完成。
1、首先将 HDFS 中的数据以 Split 方式作为 MapReduce的输入。前面我们提到,HDFS中的数据是以block存储,这里怎么又变成了以Split作为输入呢?其实block是HDFS中的术语,Split是MapReduce中的术语。默认的情况下,一个Split可以对应一个block,当然也可以对应多个block,它们之间的对应关系是由InputFormat决定的。默认情况下,使用的是TextInputFormat,这时一个Split对应一个block。假设这里有4个block,也就是4个Split,分别为Split0、Split1、Split2和Split3。这时通过 InputFormat来读每个Split里面的数据,它会把数据解析成一个个的(key,value),然后交给已经编写好的Mapper函数来处理。
2、每个Mapper将输入(key,value)数据解析成一个个的单词和词频,比如(a,1)、(b,1)和(c,1)等等。
3、在reduce阶段,每个reduce要进行shuffle读取它所对应的数据。当所有数据读取完之后,要经过Sort全排序,排序之后再交给Reducer做统计处理。比如,第一个Reducer读取了两个的(a,1)键值对数据,然后进行统计得出结果(a,2)。
4、将Reducer的处理结果,以OutputFormat数据格式输出到 HDFS 的各个文件路径下。这里的OutputFormat默认为TextOutputFormat,key为单词,value为词频数,key和value之间的分割符为”\tab”。由上图所示,(a 2)输出到Part-0,(b 3)输出到Part-1,(c 3)输出到Part-2。
Hadoop安装
一、安装环境
硬件:虚拟机
操作系统:Centos 6.5 64位
IP:31
主机名:Master.hadoop
安装用户:root
二、安装JDK
安装JDK1.7或者以上版本。这里安装jdk1.7.0_79。
下载地址:/technetwork/java/javase/downloads/index.html
1,下载jdk-7u79-Linux-x64.gz,解压到/usr/Java/jdk1.7.0_79。\r\n
2,在/root/.bash_profile中添加如下配置:
export JAVA_HOME=/usr/java/jdk
export PATH=$JAVA_HOME/bin:$PATH
3,使环境变量生效,#source ~/.bash_profile
4,安装验证# java
文档评论(0)