Hadoop2.5.2,伪分布式安装教程.docx

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop2.5.2,伪分布式安装教程

[键入文字] 一、Hadoop概述 1.1什么是Hadoop 一个开源、高可靠、可扩展的分布式计算框架 解决的问题: 海量数据的存储(HDFS) 海量数据的分析(MapReduce) 分布式资源调度(Yarn) 产生背景: 受Google三篇论文的启发(GFS、MapReduce、BigTable) 扩容能力: 能可靠地存储和处理千兆字节(PB)数据。 成本低: 可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 高效率: 通过分发数据,Hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速。 可靠性: Hadoop能自动维护数据的多份副本,并且在任务失败后能自动重新部署。 1.2 Hadoop应用场景 日志分析 基于海量数据的在线应用 推荐系统 计算广告 复杂算法 网盘 搜索引擎 …………. 1.3 Hadoop生态圈 1.4 Hadoop核心 Hadoop项目主要包括以下四个模块 Hadoop Common: 为其他Hadoop模块提供基础设施 Hadoop HDFS: 一个高可靠、高吞吐量的分布式文件系统 Hadoop MapReduce: 一个分布式的离线并行计算框架 Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理 分布式离线计算框架 ---- MapReduce Map任务处理 ① 读取输入文件内容,解析成key、value对 ② 重写map方法,编写业务逻辑输出新的key、value对 ③ 对输出的key、value进行分区。(Partitioner类) ④对数据按照key进行排序、分组。相同key的value放到一个集合中。 Reduce任务处理 ①对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点。 ②对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。 ③把reduce的输出保存到文件中。 二、Hadoop前置环境安装 Linux环境准备 JDK安装 材料: VMware  HYPERLINK /sw-search-sp/software/d34ff7ffac8/VMware-workstation_full_932.exe /sw-search-sp/software/d34ff7ffac8/VMware-workstation_full_932.exe linux /centos/6.8/isos/x86_64/CentOS-6.8-x86_64-bin-DVD1.iso CentOS-6.8-x86_64-bin-DVD1.iso Jdk1.7 jdk-7u67-linux-x64.tar.gz 2.1虚拟机搭建 安装完成,重新启动 2.2设置虚拟机网络环境 链接网络,根据你本机网络环境,设置虚拟机服务器中网络环境 查看你本地网络环境 检查你win环境能否ping通虚拟机 使用 SecureCRT.exe 即可远程连接上服务器 2.3关闭防火墙 永久关闭:chkconfig iptables off 暂时关闭,重启后失效:service iptables stop [root@hadoop02 ~]# chkconfig iptables off 2.4修改主机名 [root@hadoop02 ~]# vim /etc/sysconfig/network 2.5配置网络映射 2.6重启机器 [root@hadoop02 ~]# reboot d2.7设置ssh免密码登录 [root@hadoop02 ~]# ssh 16 需要密码 首先生成秘钥: [root@hadoop02 ~]# ssh-keygen -t rsa 之后四个回车 生成完成,复制秘钥到本机 [root@hadoop02 ~]# ssh-copy-id 16 测试是否无需免密码登录 [root@hadoop02 ~]# ssh 16 2.8设置java环境,安装JDK 检查是否已经安装了JDK,可根据情况卸载本机jdk,重新安装自己的JDK [root@hadoop02 ~]# rpm -qa|grep jdk [root@hadoop02 ~]# rpm -qa|grep java 先卸载本机的jdk [root@hadoop02 ~]# rpm -e --nodeps java-1.6.0-openjdk-8-.el6.x86_64 [root@hadoop02 ~]# rpm -e --nodeps java-1.7.0-openjdk-9-.el6.x86_64 [root@hadoo

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档