- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop培训(一)
Hadoop培训(一) 郝保 2012-08-23 系统开发部 主要内容 Hadoop介绍 Hadoop现状 MapReduce 引擎 HDFS文件系统 Hadoop相关 Hadoop介绍 作者:Doug Cutting 纯Java编写的开源系统,能够实现大规模的计算 Nutch搜索引擎里面的一个模块。 受Google三篇论文的启发,详细网上看 ---MapReduce GFS Bigtable mapreduce mapreduce GFS HDFS Bigtable Hbase Hadoop现状 奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载 京东、百度:存储、分析日志、数据挖掘 广告类公司:存储日志,通过协调过滤算法为客户推荐广告 Yahoo:垃圾邮件过滤 华为:云计算平台 Facebook:日志存储,实时分析 淘宝、阿里:国内使用Hadoop最深入的公司 亚马逊 HDFS文件系统 NameNode节点是就是HDFS的大脑。想了解HDFS文件系统,必须了解大脑结构。 从NameNode节点开始。NameNode类中,关于HDFS文件系统的存储和管理都交给了FSNamesystem负责。 FSNameSystem层次结构 INode: 它用来存放文件及目录的基本信息:名称,父节点、修改时间,访问时间以及UGI信息等。INodeFile: 继承自INode,除INode信息外,还有组成这个文件的Blocks列表,重复因子,Block大小INodeDirectory:继承自INode,此外还有一个INode列表来组成文件或目录树结构Block(BlockInfo):组成文件的物理存储,有BlockId,size ,以及时间戳BlocksMap: 保存数据块到INode和DataNode的映射关系FSDirectory:保存文件树结构,HDFS整个文件系统是通过FSDirectory来管理FSImage:保存的是文件系统的目录树FSEditlog: 文件树上的操作日志FSNamesystem: HDFS文件系统管理 读文件过程 写文件的过程 HDFS文件操作 格式为:hadoop fs -cmd args cmd的命名通常与unix对应的命令名相同。例如,文件列表命令: hadoop fs -ls 1、添加目录和文件 HDFS有一个默认的工作目录 /user/$USER,其中$USER是你的登录用户名。不过目录不会自动建立,我们现在用mkdir建立它,我使用的是chen作为用户名。 hadoop fs -mkdir /user/haobao (hadoop的mkdir命令会自动创建父目录,类似于带-p的unix命令) hadoop fs -put example.txt . 最后一个参数是句点,相当于放入了默认的工作目录 当你把文件放入HDFS上后,你就可以运行Hadoop程序来处理它。 2、检索文件 get命令与put命令相反,它从HDFS复制文件回到本地文件系统。 hadoop fs -get example.txt . 复制到本地的当前工作目录中。 另一种是显示数据,用cat hadoop fs -cat example.txt 3、删除文件 rm命令 hadoop fs -rm example.txt 也可以用来删除空目录 MapReduce 引擎 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 实例 写MapReduce程序的步骤: 1.把问题转化为MapReduce模型 2.设置运行的参数 3.写map类 4.写reduce类 例子:统计单词个数 Hello my name is hao bao What is your name Hello 1 my 1 name 2 Is 2 What 1 your 1 hao 1 Bao 1 Map与Reduce分
您可能关注的文档
- 30岁的人了,痘痘终于往除,分享下战痘祛痘心得-39密斯护肤博客.doc
- 32、装备举动办法的考验、保护、颐养治理轨制.doc
- 2适宜家庭栽种的藤本月季种类.doc
- 34m箱梁静载试验计划.doc
- 350MW机组建设策划书-电气.doc
- 3G专属服务方案.ppt
- 3中文医药文献全文数据库(外网).ppt
- 3用真情拨动读者心弦(宽高).doc
- 3、员工培训规章轨制.doc
- 3食物装备运转、保护、和卫生治理.doc
- 4.1 陆地水体及其关系 课件高二上学期地理中图版(2019)选择性必修一.pptx
- 混凝土结构与砌体结构设计习题集 .pdf
- 统编版语文四年级下册 22.古诗三首 课件(共50张PPT).pptx
- 青海2024行测笔试真题及答案 .pdf
- 2.1 充分发挥市场在资源配置中的决定性作用 课件-高中政治统编版必修二经济与社会.pptx
- 27.巨人的花园 课件(共58张PPT).pptx
- 统编版语文一年级下册5 树和喜鹊 第1课时 课件(共37张PPT).pptx
- 2.1 充分发挥市场在资源配置中的决定性作用 课件政治一轮复习统编版必修二经济与社会.pptx
- 贵港市平南县2024届小升初考试语文试卷含答案 .pdf
- 小学期末考试质量分析 .pdf
文档评论(0)