大数据特点及处理平台比较.docVIP

下载本文档

40
0
约6.11千字
约 12页
2017-06-07 发布于福建
举报
版权申诉

大数据特点及处理平台比较.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据特点及处理平台比较

大数据特点及处理平台比较　　[摘要] 大数据环境下传统的数据处理方式不再适用，以云计算技术为支撑的大数据处理平台的出现为落实大数据应用提供了可行思路。为此，在归纳了开源Hadoop和Spark平台各自优缺点后，指出其应用场景，以更好地利用大数据。通过比较常用大数据平台发现，Hadoop适用于数据密集型任务，并广泛应用于离线分析。Spark因其基于内存的计算，在迭代计算和实时分析领域占据优势。并发现他们在功能上有较强的互补性，有时二者协同使用可以优化效益，Spark和许多Hadoop发行版已经互相支持实现。经过此项探讨工作，期望有利于选择和实施大数据处理平台，实现大数据资源的更大价值 [关键字] 大数据特点；大数据平台；比较研究 [中图分类号] TP202 [文献标识码] A [文章编号] 1002-8129（2017）01-0103-04 一、大数据的特点与处理平台概述 1.大数据的特点目前，大数据还没有一个标准的定义，但是把握大数据的特征，有助于加深对大数据内涵的理解。数据具有的3V特征，即规模大（Volume）、种类多（Variety）、速度快（Velocity），在业内已经基本成为统一认识。规模大，意味着数据量不断扩张，数据量级将从现在的GB、TB增长到PB、EB甚至达到ZB级。种类多，是指数据类型有结构化、半结构化和非结构化，其中文字、图片、音频、视频等非结构化数据占更大比例。速度快，表示大数据有强时效性，数据通常快速地产生，又需要及时地进行处理分析，才能有效地实现大数据的经济价值 “大数据的处理过程可以分为：数据抽取与集成、数据分析以及数据解释”[1]。巨量的数据往往也意味着噪音的增多，这给预处理数据时数据的清洗工作造成了困难。传统的关系型数据库处理对象单位通常为MB，并且适合存储结构化数据，面向大数据的数据库技术应该能够解决海量非结构数据的存储问题。传统的数据分析方法以算法的准确率作为最重要的衡量指标，而大数据的高速性要求算法必须牺牲一部分准确性以达到更高效地处理数据。大数据的分析结果往往也是大量的，故小数据量时可以选择的数据解释方法基本不再适用，引入可视化技术来将大数据的分析结果以友好的形式展现 2.大数据处理平台发展概述为了应对大数据处理上的挑战，“从规模巨大、种类繁多、生成快速的数据集中挖掘价值”[2]，专门针对大数据的技术和方法应运而生。GFS、NoSQL、ITHbase、MapReduce等云计算技术的发展，使得大数据的有效存储、管理和分析成为可能。但是从众多复杂的大数据技术中进行选择，并搭建完备的大数据处理框架难度很高，不利于挖掘大数据中的经济价值。大数据平台和产品的出现，可以使用户在不了解架构底层细节的情况下，开发大数据应用程序。全球领先的科技巨头都纷纷在制定大数据战略时提出了建设与应用大数据处理平台：IBM公司推出了云端版InfoSphere BigInsights[3]；HP推出了HP Vertica6.1分析平台[4]；Google提出的GFS、MapReduce等云计算技术催生了大数据处理平台的事实标准Hadoop，目前，Google使用的是自己开发的Caffeine[2]；Facebook结合自身的使用需求实现了Corona、Prism。一个完备、高效的大数据处理平台为实施大数据应用提供一站式的基础服务，支持应用系统从清洗、集成、分析到结果可视化展现的大数据处理全过程建设，降低了用户技术门槛[5]。因此，比较和选择有大数据特征的处理平台，有助于大数据技术研发和产业落地，实现大数据的巨大价值二、常用大数据处理平台比较 1.Hadoop Hadoop是由Apache开发的开源云计算平台，实现在大量计算机组成的集群中进行分布式存储和计算。Hadoop框架最核心的技术是HDFS和MapReduce。HDFS是可以部署在廉价机器上的分布式文件系统，采用主/从结构，将大文件分割后形成大小相等的block复制三份，分别存储在不同的节点上，实现了海量数据的存储。MapReduce编程模型实现大数据处理，它的核心是“分而治之”[1]。Map任务区将输入数据源分块后，分散给不同的节点，通过用户自定义的Map函数，得到中间key/Value集合，存储到HDFS上。Reduce任务区从硬盘上读取中间结果，把相同K值的数据组织在一起，再经过用户自定义的Reduce函?荡?理，得到并输出最终结果。将对巨量资料的处理并行地运行在集群上，从而实现了对大数据的有效处理。从Hadoop的核心处理过程我们可以总结出它具有如下优点[6-9]：高扩展性。Hadoop的横向扩展性能很好，使海量数据能横跨几百甚至上千台服务器，而用户使用时好像只是面对一个。大量计算机