Hadoop 总体概述.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop 总体概述.docx

大数据课程设计授课课题Hadoop 总体概述课时8教学目的与要求教学目的:掌握hadoop分布式计算的思想来源,以及核心配置文件的作用能力要求:掌握linux操作教学重点分布式计算教学难点分布式计算教学准备集群服务器课程大纲Hadoop总体概述 Hadoop核心配置文件 Hadoop核心进程教学过程由互联网搜索产生的问题讲到分布式计算,以及离线处理,进而将hadoop的产生,以及关键配置文件和进程的作用,见附录板书设计随堂作业概念理解 Hadoop总体概述 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 Hadoop起源于Google的集群系统, Google的数据中心使用廉价Linux PC机组成集群,在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。其核心组件有3个:第一个就 是,GFS(Google File System),一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口;第二个是 MapReduce,Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value 对,Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行, 并把结果存储在GFS上;第三个,BigTable,一个大型的分布式数据库,这个数据库不是关系式的数据库,而是一个巨大的表格,用来存储结构化的数 据。 而Hadoop就是Google集群系统的一个开源实现,是一个项目总称。主要是由HDFS、MapReduce和Hbase组成。其中HDFS是Google File System(GFS)的开源实现; MapReduce是Google MapReduce的开源实现; HBase是Google BigTable的开源实现。   这个分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版 本,支持Fedora、Ubuntu等Linux平台。目前Hadoop受到Yahoo的支持,有Yahoo员工长期工作在项目上,而且Yahoo内部也 准备使用Hadoop代替原来的的分布式系统。 Hadoop实现了HDFS文件系统和MapRecue,使Hadoop成为了一个分布式的计算平台。用户只要MapReduceBase,提供分别实现Map和Reduce的两个类, 并注册Job即可自动分布式运行。因此,Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 Hadoop核心配置文件 1.?在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6 2.? 在conf/core-site.xml文件中增加如下内容: ?!--??fs.default.name?- 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。-- ?property ? ? ? ? ? ? ? namefs.default.name/name ? ? ? ? ? ? ? valuehdfs://localhost:9000/value ? ? ? ? /property ? ?!—hadoop.tmp.dir?是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中-- ? property ? ? ? namehadoop.tmp.dir/name ? ? ? ?value/home/hdfs/tmp/value ? ?/property ?3.? 在conf/hdfs-site.xml中增加如下内容: ?!-- dfs.replication?-它决定着 系统里面的文件块的数据备份个数。对于一个实际的应用,它?应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档