hadoop简介解读.ppt

下载文档 降价啦

12
0
约5.3千字
约 36页
2017-01-20 发布于广东
举报
版权申诉
保障服务

hadoop简介解读.ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoop简介解读

讲师：李希沅时间：9:30~12:30 14:00~17:00 Mapreduce shuffle 知识延伸 HDFS 读文件大数据课程深入浅出hadoop1 课程目标 Hadoop项目简介 Hadoop伪分布搭建 HDFS架构（重点） HDFS shell操作 MapReudce原理(重点) Hadoop工程师招聘课程答疑 1：学习hadoop需要什么基础？ 2：现在hadoop市场是什么样？ 3：学习hadoop的难度？ 4：从本课程能学到什么？ Hadoop是什么？适合大数据的分布式存储与计算平台作者：Doug Cutting Hadoop的发音是 [h?du:p] 受Google三篇论文的启发 hadoop名字的来源：这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting如此解释Hadoop的得名：这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。 Hadoop版本 Apache 官方版本(本课程使用的是第一代的hadoop) Cloudera 使用下载最多的版本，稳定，有商业支持，在Apache的基础上打上了一些patch。推荐使用。 Yahoo Yahoo内部使用的版本，发布过两次，已有的版本都放到了Apache上，后续不在继续发布，而是集中在Apache的版本上。从宏观的层面分为：hadoop1和hadoop2 Hadoop的思想之源 Hadoop的思想之源：Google ? 面对的数据和计算难题: ?1:大量的网页怎么存储 ?2:搜索算法 ?带给我们的关键技术和思想 ?GFS ?Map-Reduce ?Bigtable Hadoop的核心 HDFS: Hadoop Distributed File System 分布式文件系统 MapReduce：并行计算框架 HDFS架构 Log.txt 在Hadoop中，一个文件被划分成大小固定的多个文件块，分布的存储在集群中的节点中（默认64M） HDFS架构冗余冗余同一个文件块在不同的节点中有多个副本 HDFS架构思考如何管理 /home/hdfs/a.txt.part1,3,(dn1,dn2,dn3) /home/hdfs/a.txt.part2,3,(dn2,dn3,dn4) /home/hdfs/a.txt.part3,3,(dn6,dn11,dn28) HDFS架构主从结构主节点，只有一个: namenode 从节点，有很多个: datanodes namenode负责：接收用户操作请求维护文件系统的目录结构管理文件与block之间关系，block与datanode之间关系 datanode负责：存储文件文件被分成block存储在磁盘上为保证数据安全，文件会有多个副本副本存放策略第一个：在本地机器的hdfs目录下存储一个block 第二个：在另外一个机架的某个datanode上存储一个block 第三个在该机器的同一个rack下的某台机器上存储最后一个block 更多：如果还有随机 Mapreduce原理问题：求出以下数组当中最大的数 1，3，23，3，4，18，2，8，10，16，7，5 int Max(int a[]) { int m=0; for(int i=0; ia.length(); i++) if(ma[i]) m=a[i]; return m; } Mapreduce原理 MapReduce是一种编程模型，用于大规模数据集的并行计算。 reduce Mapreduce原理主从结构主节点，只有一个: JobTracker 从节点，有很多个: TaskTrackers JobTracker负责：接收客户提交的计算任务把计算任务分给TaskTrackers执行监控TaskTracker的执行情况 TaskTrackers负责：执行JobTracker分配的计算任务 Hadoop生产环境中的分布 Hadoop1伪分布搭建关闭防火墙修改ip 修改hostname 设置ssh自动登录安装jdk 安装hadoop （帮助大家整理笔记） Hadoop有三种运行模式：单机（没意义）、伪分布、完全分布模式 HDFS操作 -help [cmd] //显示命令的帮助信息 -ls(r) path //显示当前目录下所有文件 -du(s) path //显示目录中所有文件大小 -count[-q] path //显示目录中文件数量 -mv src dst /