- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop2.5.2,伪分布式安装教程
[键入文字]
一、Hadoop概述
1.1什么是Hadoop
一个开源、高可靠、可扩展的分布式计算框架
解决的问题:
海量数据的存储(HDFS)
海量数据的分析(MapReduce)
分布式资源调度(Yarn)
产生背景:
受Google三篇论文的启发(GFS、MapReduce、BigTable)
扩容能力:
能可靠地存储和处理千兆字节(PB)数据。
成本低:
可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
高效率:
通过分发数据,Hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速。
可靠性:
Hadoop能自动维护数据的多份副本,并且在任务失败后能自动重新部署。
1.2 Hadoop应用场景
日志分析
基于海量数据的在线应用
推荐系统
计算广告
复杂算法
网盘
搜索引擎
………….
1.3 Hadoop生态圈
1.4 Hadoop核心
Hadoop项目主要包括以下四个模块
Hadoop Common:
为其他Hadoop模块提供基础设施
Hadoop HDFS:
一个高可靠、高吞吐量的分布式文件系统
Hadoop MapReduce:
一个分布式的离线并行计算框架
Hadoop YARN:
一个新的MapReduce框架,任务调度与资源管理
分布式离线计算框架 ---- MapReduce
Map任务处理
① 读取输入文件内容,解析成key、value对
② 重写map方法,编写业务逻辑输出新的key、value对
③ 对输出的key、value进行分区。(Partitioner类)
④对数据按照key进行排序、分组。相同key的value放到一个集合中。
Reduce任务处理
①对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点。
②对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。
③把reduce的输出保存到文件中。
二、Hadoop前置环境安装
Linux环境准备
JDK安装
材料:
VMware
HYPERLINK /sw-search-sp/software/d34ff7ffac8/VMware-workstation_full_932.exe /sw-search-sp/software/d34ff7ffac8/VMware-workstation_full_932.exe
linux
/centos/6.8/isos/x86_64/CentOS-6.8-x86_64-bin-DVD1.iso
CentOS-6.8-x86_64-bin-DVD1.iso
Jdk1.7
jdk-7u67-linux-x64.tar.gz
2.1虚拟机搭建
安装完成,重新启动
2.2设置虚拟机网络环境
链接网络,根据你本机网络环境,设置虚拟机服务器中网络环境
查看你本地网络环境
检查你win环境能否ping通虚拟机
使用 SecureCRT.exe 即可远程连接上服务器
2.3关闭防火墙
永久关闭:chkconfig iptables off
暂时关闭,重启后失效:service iptables stop
[root@hadoop02 ~]# chkconfig iptables off
2.4修改主机名
[root@hadoop02 ~]# vim /etc/sysconfig/network
2.5配置网络映射
2.6重启机器
[root@hadoop02 ~]# reboot
d2.7设置ssh免密码登录
[root@hadoop02 ~]# ssh 16
需要密码
首先生成秘钥:
[root@hadoop02 ~]# ssh-keygen -t rsa
之后四个回车
生成完成,复制秘钥到本机
[root@hadoop02 ~]# ssh-copy-id 16
测试是否无需免密码登录
[root@hadoop02 ~]# ssh 16
2.8设置java环境,安装JDK
检查是否已经安装了JDK,可根据情况卸载本机jdk,重新安装自己的JDK
[root@hadoop02 ~]# rpm -qa|grep jdk
[root@hadoop02 ~]# rpm -qa|grep java
先卸载本机的jdk
[root@hadoop02 ~]# rpm -e --nodeps java-1.6.0-openjdk-8-.el6.x86_64
[root@hadoop02 ~]# rpm -e --nodeps java-1.7.0-openjdk-9-.el6.x86_64
[root@hadoo
文档评论(0)