第1部分入门.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1部分入门.doc

第 1 部分: 入门 尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分,但是它实际上是一个分布式数据处理框架。搜索引擎需要收集数据,而且是数量极大的数据。作为分布式框架,Hadoop 让许多应用程序能够受益于并行数据处理。 本文并不打算介绍 Hadoop 及其架构,而是演示一个简单的 Hadoop 设置。在 HYPERLINK /developerworks/cn/linux/l-hadoop-1/ \l resources 参考资料 中,可以找到关于 Hadoop 架构、组件和操作理论的更多信息。现在,我们来讨论 Hadoop 的安装和配置。 初始设置 对于本文中的示例,我们使用 Cloudera Hadoop 发行版。Cloudera 提供对各种 Linux? 发行版的支持,所以很适合初学者。 本文假设您的系统上已经安装了 Java?(至少是 1.6 版)和 cURL。如果还没有,需要先安装它们(更多信息见 HYPERLINK /developerworks/cn/linux/l-hadoop-1/ \l resources 参考资料)。 因为我运行 Ubuntu(Intrepid 版),所以使用 apt 实用程序获取 Hadoop 发行版。这个过程非常简单,我可以获取二进制包,而不需要下载并构建源代码。首先,告诉 apt Cloudera 站点的信息。然后,在 /etc/apt/sources.list.d/cloudera.list 中创建一个新文件并添加以下文本: deb /debian intrepid-cdh3 contrib deb-src /debian intrepid-cdh3 contrib 如果您运行 Jaunty 或其他版本,只需把 intrepid 替换为您的版本名(当前支持 Hardy、Intrepid、Jaunty、Karmic 和 Lenny)。 接下来,从 Cloudera 获取 apt-key 以检查下载的包: $ curl -s /debian/archive.key | \ sudo apt-key add - sudo apt-get update 然后,安装采用伪分布式配置的 Hadoop(所有 Hadoop 守护进程在同一个主机上运行): $ sudo apt-get install hadoop-0.20-conf-pseudo $ 注意,这个配置大约 23MB(不包括 apt 可能下载的其他包)。这个配置非常适合体验 Hadoop 以及了解它的元素和界面。 最后,我设置了不需要密码的 SSH。如果打算使用 ssh localhost 并请求密码,就需要执行以下步骤。我假设这是专用的 Hadoop 机器,因为这个步骤对安全性有影响(见清单 1)。 清单 1. 设置不需要密码的 SSH $ sudo su - # ssh-keygen -t dsa -P -f ~/.ssh/id_dsa # cat ~/.ssh/id_dsa.pub ~/.ssh/authorized_keys 最后,需要确保主机上有供 datanode使用的足够存储空间(缓存)。存储空间不足会导致系统表现异常(比如出现无法把数据复制到节点的错误)。 HYPERLINK /developerworks/cn/linux/l-hadoop-1/ \l ibm-pcon 回页首 启动 Hadoop 现在可以启动 Hadoop 了,这实际上要启动每个 Hadoop 守护进程。但是,首先使用 hadoop 命令对 Hadoop File System (HDFS) 进行格式化。hadoop 命令有许多用途,稍后讨论其中一部分。 首先,请求 namenode 对 DFS 文件系统进行格式化。在安装过程中完成了这个步骤,但是了解是否需要生成干净的文件系统是有用的。 # hadoop-0.20 namenode -format 在确认请求之后,文件系统进行格式化并返回一些信息。接下 来,启动 Hadoop 守护进程。Hadoop 在这个伪分布式配置中启动 5 个守护进程:namenode、secondarynamenode、datanode、jobtracker 和 tasktracker。在启动每个守护进程时,会看到一些相关信息(指出存储日志的位置)。每个守护进程都在后台运行。图 1 说明完成启动之后伪分布式配置的架构。 图 1. 伪分布式 Hadoop 配置 Hadoop 提供一些简化启动的辅助工具。这些工具分为启动(比如 start-dfs)和停止(比如 stop-dfs)两类。下面的简单脚本说明如何启动 Hadoop 节点: # /usr/lib/

文档评论(0)

151****4875 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档