Hadoop - 介绍.pptxVIP

下载本文档

10
0
约8.92千字
约 51页
2016-12-07 发布于湖北
举报
版权申诉

Hadoop - 介绍.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop - 介绍

引言古代，人们用牛来拉重物。当一头牛拉不动一根圆木时，他们不曾想过培育更大更壮的牛。同样，我们也不需要尝试开发超级计算机，而应试着结合使用更多的计算机系统。 -----格蕾·霍珀 Hadoop—介绍大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍Hadoop YARN基本构架Hadoop的实际应用不同Hadoop版本间的比较一、大数据技术需要解决的难题海量数据如何存储？海量数据如何处理？1. 海量数据如何存储？海量数据的存储问题也不是今天才有的，很早以前就出现了，一些行业或者部门因为历史的积累，数据量也达到了一定的级别，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS(网络文件系统)将数据分开存储NFS系统构架I.local\publicI.local\publicSoftwareToolsFilmD:\softwareE:\imagesF:\dd\ccE:\aa\bbMusic缺点：海量数据分析方面不能够充分利用多台计算机同时进行分析SoftwareMusicFilmTools2. 海量数据如何计算？一个实际的需求场景—日志分析对日志中的每一个用户的流量进行汇总就和，如下图所示：对于这样的一个日志文件，如果只有这么几行数据，我们一般会采用这样的处理方式：　1、读取一行日志　2、抽取手机号和流量字段　3、累加到HashMap中　4、遍历输出结果　那么问题来了，如果数据量变得很大呢，比如一个日志文件里面有几个GB数据。 1、如果仍然一行一行去读，那么就会因为磁盘的IO瓶颈导致效率太低，速度太慢。 2、如果一次性加载到内存，那么就会因为单台计算机的内存空间有限而导致内存溢出。 3、如果将中间结果全部缓存到HashMap中，那么也会因为单台计算机的内存空间有限而导致内存溢出。 4、可以选择采用多线程处理，但是依然无法改变资源瓶颈的现实，因为一台计算器的CPU资源，内存资源，磁盘IO瓶颈是定，创建再多的线程也无法改变这个现实。解决思路一纵向扩展：也就是升级硬件，提高单机性能(增加内存，增强CPU、用更高性能的磁盘(如固态硬盘))，比如可以购买IBM的高端服务器。优点：　简单易行缺点：　1、单台计算机的扩展空间有限，CPU、内存、磁盘再怎么扩展也是有限的，无法无限扩展。　2、成本高(高端服务器非常昂贵，几百万甚至上千万一台，一般的小公司承受不起这样高昂的成本)解决思路二横向扩展: 用多台节点分布式集群处理 (通过增加节点数量提高处理能力，这里说的节点指的就是一台计算机)核心思想：任务分摊，通过协作来实现单节点无法实现的任务。　优点：　1、成本相对低(可采用普通机器) 　2、易于线性扩展　缺点：　系统复杂度增加，我们要将我们的web应用部署到每一个节点上面，而多个节点协同工作时就要考虑以下几个问题　1、如何调度资源　2、任务如何监控　3、中间结果如何调度　4、系统如何容错　5、如何实现众多节点间的协调　分布式计算的复杂性就体现在这样的5个问题里面。 Hadoop—介绍大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍Hadoop YARN基本构架Hadoop的实际应用不同Hadoop版本间的比较二、什么是Hadoop？Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。Hadoop就是一门用来处理大数据的技术，就是用来解决上述提到的分布式计算里面的5个技术难题的。Hadoop的由来GFS? HDFSMapReduce ? HadoopBigTable ? HBase　Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 /view/371811.htmLucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份，MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。　　Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，因此能大大提高效率。Google 云计算ChubbyBigTableMapReduceGFSHadoop可以做什么？案例1：我想知道过去100年中每年