云计算与大数据处理综述.docxVIP

下载本文档

14
0
约5.14千字
约 7页
2017-01-06 发布于重庆
举报
版权申诉

云计算与大数据处理综述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

云计算与大数据处理综述

云计算与大数据处理引言从某种程度上来讲，云计算是面向服务计算的一个极其成功的范例。云计算的三大理念包括：基础设施即服务（IaaS）、平台即服务（PaaS）以及软件即服务（SaaS）。这一概念甚至同样可以扩展到数据库即服务（DBaaS）抑或存储即服务（SaaS）。灵活性强、计次付费、前期低投资以及风险转移几大特性，使得云计算成为部署新型应用的一种普遍方式。大量云计算应用服务的不断涌现，也催生了各种各样的云平台。越来越多的平台和应用，同时作为生产者和消费者，也使得互联网上的数据量以惊人的速度日益扩增。可扩展数据管理系统因此就成为云计算基础架构的重要一环。对于可扩展分布式数据管理的研究已经持续了许多年。大多数研究都关注于如何设计出一种同时适用于更新密集任务和专业分析任务的可扩展式系统。最初的方案有应用于更新密集型任务的分布式数据库，以及专业分析任务的并行数据库。其中并行数据库更是从原型系统一直发展到可用的商业系统水准。然而相比之下分布式数据库却发展的差强人意且从未得到商业化。可扩展海量数据管理系统应用服务的数据访问模式的变革，再加上急速扩增的需求，催生了一种被称作键值对（Key-Value）存储的新型系统。键值存储模式出现后受到各种企业的追捧并且得到了广泛采用。在工业界和学术界，MapReduce模式以及其开源实现项目Hadoop都得到了迅速应用普及。而且更进一步，针对不同的应用场景下的可用性以及运行效率提升，也不断有各种Hadoop改良解决方案被提出。部署在云端的应用服务都有着各自对于数据管理的迫切需求，这样就有诸多的可供研究的空间。总之，为解决各领域大数据管理带来的挑战，催生了数不胜数的系统方案。各种云计算服务都需要对分布存储的、海量的数据进行处理分析。具体而言，云计算应用面临的数据管理挑战体现在数据的海量性、异构性以及非确定性。针对这些特点，来构建高可用性及强可扩展性的分布式数据存储系统，目前云计算系统中的数据管理技术除了MapReduce之外，主要还包括Google的GFS、BigTable和亚马逊的Dynamo。MapReduce技术MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行计算。作为一个新的编程模型，MapReduce将所有针对海量异构数据的操作抽象为两种操作，即Map和Reduce。使用Map函数将任务分解为适合在单个节点上执行的计算子任务，通过图1. MapReduce架构模型调度执行处理后得到一个“Key-Value”集。而Reduce函数则根据预先制定的规则对在Map阶段得到的“Key-Value”集进行归并操作，得到最终计算结果。MapReduce架构模型最为成功之处就在于，让人们可以根据需求将针对海量异构数据的处理操作（无论是多么复杂）分解为任意粒度的计算子任务，并能够在多个计算节点之间灵活地调度计算任务以及参与计算的数据，从而实现计算资源和存储资源配置的全局最优化。另外，MapReduce方法在将Map任务和Reduce任务分配到集群中的相应节点时，会考虑到数据的本地性(Data Locality)，即一般会将Map/Reduce安排到参与计算数据的存放节点或附近节点来执行。GFS技术GFS（Google File System）是一个大型的分布式文件系统。它为Google云计应用算提供分布式海量存储解决方案，并且与MapReduce和BigTable等技术结合十分紧密，形成Google独有的一套的云计算解决方案。GFS的架构模型如图2所示，GFS将整个系统的节点分为三类角色：Client（客户端）、Master（主服务器）和Chunk Server（数据块服务器）。Client是GFS提供给应用程序的访问接口，它是一组专用接口，不遵守POSIX规范，以库文件的形式提供。应用程序直接调用这些库函数，并与该库链接在一起；Master是GFS的管理节点，其数量在逻辑上只有一个，它保存系统的元数据，负责整个文件系统的管理，是GFS文件系统中的大脑；Chunk Server负责具体的存储工作，数据以文件的形式存储在Chunk Server上，Chunk Server的个数可以有多个，它的数目直接决定了GFS的规模。GFS将文件按照图2. GFS架构模型固定大小进行分块（默认是64MB），每一块称为一个Chunk（数据块），每个Chunk都有一个对应的索引号（Index）。客户端应用在访问GFS时，首先访问Master节点，获取将要与之进行交互的Chunk Server信息，然后再行直接访问这些Chunk Server完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流，而无数据流，这样就极大地降低了Master的负载，使