用大数据武装云基于云计算大数据处理技术.docVIP

下载本文档

4
0
约4.43千字
约 9页
2018-09-15 发布于福建
举报
版权申诉

用大数据武装云基于云计算大数据处理技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用大数据武装云基于云计算大数据处理技术

用大数据武装云基于云计算大数据处理技术　　【摘要】随着互联网、移动互联网和物联网的发展，我们已经迎来了数据大爆炸的时代，数据的快速增长带来了数据存储、处理、分析的巨大压力，而大数据技术（Big data）的引入，不但满足了系统功能和性能的要求，带来良好的可扩展性，降低了IT部署的成本，还拓展了数据智能分析的应用领域。同时，大数据分析与云计算的发展密切相关，云计算是大数据处理的基础，而大数据技术是云计算的延伸，云计算的分布式存储和计算架构为大数据的快速处理和智能分析提供了一种合适的解决方案。本文将探讨建立在云计算基础上的大数据处理技术，包括分布式计算框架、分布式文件系统、大数据管理技术、实时流数据处理、机器学习以及可视化技术等。　　【关键词】云计算大数据 MapReduce Hadoop一、大数据　　1.1什么是大数据　　大数据概念可以从四个维度去解，即三个V和一个C。三个V分别指的是数据量大（Volume）、数据种类多（Variety）和数据增长速度快（Velocity），最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多（Complexity）。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。　　1.2大数据与云计算　　大数据本身就是一个问题集，云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台，大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术，也是云计算思想的一种具体体现。　　云计算是分布式处理、并行处理和网格计算的发展，或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来，基于资源虚拟化的方式，为用户提供方便快捷的服务，实现了资源和计算的分布式共享和并行处理，能够很好地应对当前互联网数据量高速增长的势头。　　1.3大数据与Hadoop 　　Hadoop是一个Apache的开源项目，主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题，并将它们分配到成百上千个处理节点之上，再将结果汇集到一个小数据集当中，从而更容易分析得出最后的结果。　　Hadoop项目包括三部分，分别是Hadoop Distributed File System（HDFS）、Map Reduce编程模型，以及Hadoop Common。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点，同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。 Hadoop同样具备出色的大数据集处理能力，在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。　　二、大数据技术综述　　大数据处理不仅仅是Hadoop，许多特定的数据应用场景是需要实时分析和互动反馈的，这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门，打造健全的大数据生态环境，所有这些技术结合在一起，才是一个完整的大数据处理系统。　　2.1分布式计算框架　　MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型，用于大规模数据集（大于1TB）的并行运算，使云计算环境下的编程变得十分简单。　　MapReduce将数据处理任务抽象为一系列的Map（映射）和Reduce（化简）操作对。Map主要完成数据的分解操作，Reduce主要完成数据的聚集操作.输入输出数据均以〈key，value〉格式存储.用户在使用该编程模型时，只需按照自己熟悉的语言实现Map函数和Reduce函数即可，MapReduce算法框架会自动对任务进行划分以做到并行执行。　　Pregel是Google 提出的迭代处理计算框架，它具有高效、可扩展和容错的特性，并隐藏了分布式相关的细节，展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算，例如交通线路、疾病爆发路径、WEB 搜索等相关领域。　　2.2分布式文件系统　　为保证高可用、高可靠和经济性，基于云计算的大数据处理系统采用分布式存储的方式来保存数据，用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。　　GFS即Google文件