hadop实战高手之路：从开始的第一讲hadoop图文训练课程：10钟理解云计算分布式大数据处理框架hadoophadoop实战高手之路：从零开始的第一讲hadoop图文训练课程：10钟理解云计算分布式大数据处理框架hadoop.docxVIP

下载本文档

7
0
约2.42千字
约 5页
2017-01-01 发布于贵州
举报
版权申诉

hadop实战高手之路：从开始的第一讲hadoop图文训练课程：10钟理解云计算分布式大数据处理框架hadoophadoop实战高手之路：从零开始的第一讲hadoop图文训练课程：10钟理解云计算分布式大数据处理框架hadoop.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

hadoop实战高手之路：从开始的第一讲hadoop图文训练课程：10钟理解云计算分布式大数据处理框架hadoophadoop实战高手之路：从零开始的第一讲hadoop图文训练课程：10钟理解云计算分布式大数据处理框架hadoop

智者说，要想最快的进步，主要有两点：1，向第一名学习，向有结果的人学习；2，采用持续的、大量的、有决心的行动。。家林会带您在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践，倒计时开始……第1分钟：Hadoop要解决的问题是什么？答：Hadoop核心要解决长期IT界乃至人类社会的两大主题：海量数据的存储：传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长，例如纽约证券交易所每天要产生T级别的数据量，Facebook要每天要服务过亿的用户（其中图片等数据`量是惊人的），如何使用廉价的设备支持无线增长的数据的安全高效的存储，Hadoop提出了解决方案，即HDFS. 海量数据的分析：如何有效而快速的从海量数据中提取出有价值的信息，Hadoop给出了解决方案，即MapReduce.HDFS和MapReduce是Hadoop整个项目的基础和核心，Hadoop庞大的家族中的其它子项目都是基于HDFS和MapReduce，所以掌握HDFS和MapReduce也就掌握了Hadoop的核心。第2分钟：Hadoop的来源和发展历史是什么？答：始于2002年Apache搜索引擎项目Nutch，2004年Nutch的开发者基于Google发表的著名的GFS论文开发出了开源版本的GFS即NDFS，2005年基于Google发表的著名的MapReduce论文把MapReduce引入NDFS，2006年改名为Hadoop，NDFS的创始人加入Yahoo，同时Yahoo成立专门的小组发展Hadoop。可以看出，在Hadoop的发展过程中，除了其创始人外，Google和Yahoo居功至伟。第3分钟：Hadoop到底是什么？答：Hadoop是基于廉价设备利用集群的威力对海量数据进行安全存储和高效计算的分布式存储和分析框架，Hadoop本身是一个庞大的项目家族，其核心家族或者底层是HDFS和MapReduce，HDFS和MapReduce分别用来实现对海量数据的存储和分析，其它的项目，例如Hive、HBase等都是基于HDFS和MapReduce，是为了解决特定类型的大数据处理问题而提出的子项目，使用Hive、HBase等子项目可以在更高的抽象的基础上更简单的编写分布式大数据处理程序。Hadoop的其它子项目还包括Common, Avro, Pig, ZooKeeper, Sqoop, Oozie等，随着时间的推移一些新的子项目会被加入进来，一些关注度不高的项目会被移除Hadoop家族，所以Hadoop是一个充满活力的系统。第4分钟：什么问题场景下适合使用HDFS？什么场景下不适合采用HDFS？答：适合使用Hadoop的场景：非常大的文件，包括单个文件非常大（例如超过100G大小的文件）和文件总大小非常大（例如达到P级别），即支持海量的数据；“write-once,read-many-times”的Streaming的文件访问方式；普通的硬件系统支持大数据的处理；不适用Hadoop的场景：低延迟的数据访问；有很多细小文件的系统；要多次写入和修改的文件系统；第5分钟：如何解读HDFS架构图？答：架构图如下：HDFS架构图的解读：HDFS会把一个大文件分成很多小些的文件，把这些小文件存放在不同的节点上;这些数据存放的节点叫做DataNode，DataNade中存放HDFS中定义的Block，即数据块，每块的大小是64M；HDFS把大文件分成的多个小文件不仅存放在不同的节点上，而且同一个文件块在不同的节点上有多个副本；记录这些数据和数据划分以及存储信息的节点叫做NameNode，NameNode是关键性的配置文件，而且是单一节点存在的，在2.x开始使用了HA策略，即HDFS支持NameNode的active-standy模式了；客户端请求Hadoop中的数据时先要访问NameNode，从NameNode中获取DataNode中数据存储的信息后，才进行具体数据的访问；第6分钟：MapReduce到底是如何工作的？答：家林举个例子你就明白了：求20个数据中的最大数，一般的编程方式把第一个数据开始往后面一个个的比较，总是把更大的数据记录下来，这样顺序比较下去，最后就得到了最大的数据；但是MapReduce的做法是把这20个数据分成4组，每组5个数据，每组采用Map函数求出最大值，然后后每组把求得的各自最大值交给Reduce，由Reduce得出最后的最大值；简言之：MapReduce的工作方式就是大事化小，并行工作，各个击破。第7分钟：为什么要学习Hadoop？答：Hadoop是云计算的具体实践技术，是处理大数据的开源框架，而大数据处理是IT界越来越热的主题，通过Hadoop开源代码的学习也是工程师提升自己功力的一个绝佳途径。第8分钟：如何开始学习Hado