windows 下, Hadoop 伪分布式环境搭建.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
windows 下, Hadoop 伪分布式环境搭建

Hadoop 伪分布式环境搭建 Hadoop 的起源 我们生活在数据时代,随着计算机的飞速发展,磁盘存储量的快速增加,普通计算机TB级的硬盘都已经司空见惯。TB、PB甚至更高的海量数据的处理对于一般计算机而言,意味着非常严峻甚至无法胜任的挑战。因此,如何高效的分析和管理海量数据,已成为当前急需解决的问题。 2002年,Apache 开源组织创建了 Nutch 项目,该项目是一个网页爬取工具和搜索引擎系统,但是该架构可扩展度不够,不能解决数十亿网页的搜索问题。、 而在之后的2003,谷歌公布了GFS(Google File System)、MapReduce等高可扩展、高性能的分布式海量数据处理框架,并证明了该框架在处理海量数据时的优越性。 受谷歌GFS的启发,2004年Apache开始着手创建一个开源的实现,即NDFS(Nutch的分布式文件系统) 2005年初,该项目在Nutch 上得到了实现,并用MapReduce 和 NDFS来运行 2006年,Apache 将 NDFS和MapReduce 移出 Nutch,形成 Lucene下的一个子项目,并命名为为Hadoop。 2008年4月,Hadoop在209秒内,完成了对1TB数据的排序,打破了世界纪录 MapReduce:分布式计算(Map:任务的分解,Reduce:结果的汇总) HDFS(Hadoop Distributed File System):分布式文件系统 Hadoop 名称由来: Hadoop项目的名称是由该项目的创建者Doug Cutting的孩子,给一头棕色大象形状的填充玩具起的名字。由于该名字简短,容易发音和拼写,而且没有太多的含义,并且不会被用于别处而产生混淆,于是Doug Cutting 就把它作为该项目的名字,并且,hadoop的图标也是一头大象。 下载搭建环境需要的软件 Hadoop 下载地址:/hadoop/common/ 我们这里使用的版本是稳定版 1.0.4 Cygwin 下载地址:/setup.exe hadoop 环境需要搭建在 Linux 操作系统下, Cygwin 是一在windows平台上运行的nux模拟环境 选择安装路径,点击下一步 选择本地的安装文件,因为我们是从互联网直接安装的,不用管这里,下一步 这里选择接入互联网的方式,保持默认,下一步 选择下载站点,我们选择 163镜像,下一步 下载中,等待即可 期间会提示 第一次安装,不用管它,直接确定,下载完成之后,点击确定,下载完成后直接下一步 选择需要安装的软件包 Net Default 下的:openssh,openssl Base Default 下的:sed (若需要Eclipse,必须sed) Devel Default下的:subversion(建议安装)。具体请参考下面的图示 Skip 为跳过,点击即可选中,表示安装。然后点击下一步 安装选中的软件包,点击下一步 自动下载并安装,安装时间依网速而定。 点击完成,结束安装 将CygWin的bin目录以及usr/sbin 追加到系统环境变量PATH中,至此,cygwin 安装结束 注:安装完成之后先别急着打开,Cygwin在第一次启动时,会自动根据windows 下的环境变量,生成 Linux 的环境变量,所以我们先在 windows 下将需要配置的环境变量都配置好,参考检查环境变量一章 软件配置 Cygwin配置 创建 SSH 服务 SSH 为 Secure Shell 的缩写,它是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。 Cygwin 控制台输入以下命令: 当系统提示 (yes/no) 时,一路 yes, 系统提示:*** Query: Enter the value of CYGWIN for the daemon: [] 输入:ntsec 出现此信息时,配置成功 此时在 windows 的服务菜单会出现 Cygwin 的 sshd 服务,启动。 注:网上有提示说第一个选no,但是我把第一个选择为no之后,会出现 CYGWIN sshs 启动不了的情况,之后我又重新运行了一遍命令,全部 yes 之后才可以启动。 配置ssh密钥,实现无密码登陆主机 控制台输入以下两条命令: 此时会在Cygwin 的用户文件夹下生产密钥文件,路径是 CYGWIN_HOME/ home/Administrator/.ssh 文件夹下, Administrator 是当前用户。 authorized_keys文件就是我们需要的密钥文件。如果其他机器需要登录该主机,只需将该文件拷贝到其他主机的用户目录下即可。 重启 cygwin ,然后运行命令: 第一次密钥登陆会有如下提示,选择 yes ,连接成功 Hado

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档