浅谈大数据生态圈.pptVIP

下载本文档

6
0
约4.35千字
约 22页
2020-01-13 发布于未知
举报
版权申诉

浅谈大数据生态圈.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈大数据生态体系 Talking about big data ecosystem 何为大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的特点：一是数据体量巨大。至少是PB级别以上量级的数据二是数据类型多样。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。三是处理速度快。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。大数据，首先你要能存的下大数据传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。那什么是HDFS（Hadoop Distributed FileSystem）？一个分布式存储系统 Google GFS的开源实现数据存储采用master/slave架构模式，主要由Client、 NameNode、Secondary NameNode和DataNode组成 HDFS：体系结构示意图 NameNode管理文件系统的命名空间和客户端对文件的访问操作。 DataNode 负责处理文件系统客户端的文件读写请求，并在 NameNode 的统一调度下进行数据块的创建、删除和复制工作。 Client NameNode DataNode block block block block block ....... DataNode block block block block block ....... ....... DataNode block block block block block ....... 数据请求读写文件相关操作处理数据存的下数据之后，你就开始考虑怎么处理数据虽然HDFS可以为你整体管理不同机器上的数据，但是这些数据太大了。一台机器读取成TB或者PB量级的数据，一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说，单机处理是不可忍受的，比如微博要更新24小时热博，它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理，我就面临了如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算等等。为了解决以上可能出现的问题，人们正式提出了MapReduce / Tez / Spark等等框架。MapReduce是第一代计算编程模型，Tez和Spark是第二代。MapReduce的设计，采用了极简化的计算模型，只有Map和Reduce两个计算过程，通过这个模型，已经可以处理大数据领域很大一部分问题了。 Hadoop 概述 Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop 分布式文件系统（HDFS，Hadoop Distributed File System）和 MapReduce（Google MapReduce 的开源实现）为核心的 Hadoop，为用户提供了系统底层细节透明的分布式基础架构。 HDFS 的高容错性、高伸缩性等优点允许用户将 Hadoop 部署在低廉的硬件上，形成分布式系统； MapReduce 分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以，用户可以利用 Hadoop 轻松地组织计算机资源，从而搭建自己的分布式计算平台，并且可以充分利用集群的计算和存储能力，完成海量数据的处理什么是MapReduce？找出一仓库黄豆中最大的n个黄豆如何解决？找N个人一起筛黄豆，最后把每个人筛出的K个黄豆放在一起（总共N*K个黄豆），再交由一个人筛出N*K个黄豆里最大的K个（分布式计算） MAP Reduce MapReduce模型概述一个 MapReduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map 任务（task）以完全并行的方式处理它们。框架会对 map 的输出先进行排序，然后把结果输入给 reduce 任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。 Map-Reduce 流程 MapReduce 模型首先将用户的原始数据源进行分块，然后分别交给不同的