网站大量收购独家精品文档,联系QQ:2885784924

hadoop培训(一).ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop培训(一)

Hadoop培训(一) 郝保 2012-08-23 系统开发部 主要内容 Hadoop介绍 Hadoop现状 MapReduce 引擎 HDFS文件系统 Hadoop相关 Hadoop介绍 作者:Doug Cutting 纯Java编写的开源系统,能够实现大规模的计算 Nutch搜索引擎里面的一个模块。 受Google三篇论文的启发,详细网上看 ---MapReduce GFS Bigtable mapreduce mapreduce GFS HDFS Bigtable Hbase Hadoop现状 奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载 京东、百度:存储、分析日志、数据挖掘 广告类公司:存储日志,通过协调过滤算法为客户推荐广告 Yahoo:垃圾邮件过滤 华为:云计算平台 Facebook:日志存储,实时分析 淘宝、阿里:国内使用Hadoop最深入的公司 亚马逊 HDFS文件系统 NameNode节点是就是HDFS的大脑。想了解HDFS文件系统,必须了解大脑结构。 从NameNode节点开始。NameNode类中,关于HDFS文件系统的存储和管理都交给了FSNamesystem负责。 FSNameSystem层次结构 INode: 它用来存放文件及目录的基本信息:名称,父节点、修改时间,访问时间以及UGI信息等。 INodeFile: 继承自INode,除INode信息外,还有组成这个文件的Blocks列表,重复因子,Block大小 INodeDirectory:继承自INode,此外还有一个INode列表来组成文件或目录树结构 Block(BlockInfo):组成文件的物理存储,有BlockId,size ,以及时间戳 BlocksMap: 保存数据块到INode和DataNode的映射关系 FSDirectory:保存文件树结构,HDFS整个文件系统是通过FSDirectory来管理 FSImage:保存的是文件系统的目录树 FSEditlog: 文件树上的操作日志 FSNamesystem: HDFS文件系统管理 读文件过程 写文件的过程 HDFS文件操作 格式为:hadoop fs -cmd args cmd的命名通常与unix对应的命令名相同。例如,文件列表命令: hadoop fs -ls 1、添加目录和文件 HDFS有一个默认的工作目录 /user/$USER,其中$USER是你的登录用户名。不过目录不会自动建立,我们现在用mkdir建立它,我使用的是chen作为用户名。 hadoop fs -mkdir /user/haobao (hadoop的mkdir命令会自动创建父目录,类似于带-p的unix命令) hadoop fs -put example.txt . 最后一个参数是句点,相当于放入了默认的工作目录 当你把文件放入HDFS上后,你就可以运行Hadoop程序来处理它。 2、检索文件 get命令与put命令相反,它从HDFS复制文件回到本地文件系统。 hadoop fs -get example.txt . 复制到本地的当前工作目录中。 另一种是显示数据,用cat hadoop fs -cat example.txt 3、删除文件 rm命令 hadoop fs -rm example.txt 也可以用来删除空目录 MapReduce 引擎 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 实例 写MapReduce程序的步骤: 1.把问题转化为MapReduce模型 2.设置运行的参数 3.写map类 4.写reduce类 例子:统计单词个数 Hello my name is hao bao What is your name Hello 1 my 1 name 2 Is 2 What 1 your 1 hao 1 Bao 1 Map与Reduce分

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档