- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据特点及处理平台比较
大数据特点及处理平台比较 [摘 要] 大数据环境下传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台的出现为落实大数据应用提供了可行思路。为此,在归纳了开源Hadoop和Spark平台各自优缺点后,指出其应用场景,以更好地利用大数据。通过比较常用大数据平台发现,Hadoop适用于数据密集型任务,并广泛应用于离线分析。Spark因其基于内存的计算,在迭代计算和实时分析领域占据优势。并发现他们在功能上有较强的互补性,有时二者协同使用可以优化效益,Spark和许多Hadoop发行版已经互相支持实现。经过此项探讨工作,期望有利于选择和实施大数据处理平台,实现大数据资源的更大价值
[关键字] 大数据特点;大数据平台;比较研究
[中图分类号] TP202 [文献标识码] A [文章编号] 1002-8129(2017)01-0103-04
一、大数据的特点与处理平台概述
1.大数据的特点
目前,大数据还没有一个标准的定义,但是把握大数据的特征,有助于加深对大数据内涵的理解。数据具有的3V特征,即规模大(Volume)、种类多(Variety)、速度快(Velocity),在业内已经基本成为统一认识。规模大,意味着数据量不断扩张,数据量级将从现在的GB、TB增长到PB、EB甚至达到ZB级。种类多,是指数据类型有结构化、半结构化和非结构化,其中文字、图片、音频、视频等非结构化数据占更大比例。速度快,表示大数据有强时效性,数据通常快速地产生,又需要及时地进行处理分析,才能有效地实现大数据的经济价值
“大数据的处理过程可以分为:数据抽取与集成、数据分析以及数据解释”[1]。巨量的数据往往也意味着噪音的增多,这给预处理数据时数据的清洗工作造成了困难。传统的关系型数据库处理对象单位通常为MB,并且适合存储结构化数据,面向大数据的数据库技术应该能够解决海量非结构数据的存储问题。传统的数据分析方法以算法的准确率作为最重要的衡量指标,而大数据的高速性要求算法必须牺牲一部分准确性以达到更高效地处理数据。大数据的分析结果往往也是大量的,故小数据量时可以选择的数据解释方法基本不再适用,引入可视化技术来将大数据的分析结果以友好的形式展现
2.大数据处理平台发展概述
为了应对大数据处理上的挑战,“从规模巨大、种类繁多、生成快速的数据集中挖掘价值”[2],专门针对大数据的技术和方法应运而生。GFS、NoSQL、ITHbase、MapReduce等云计算技术的发展,使得大数据的有效存储、管理和分析成为可能。但是从众多复杂的大数据技术中进行选择,并搭建完备的大数据处理框架难度很高,不利于挖掘大数据中的经济价值。大数据平台和产品的出现,可以使用户在不了解架构底层细节的情况下,开发大数据应用程序。全球领先的科技巨头都纷纷在制定大数据战略时提出了建设与应用大数据处理平台:IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平台[4];Google提出的GFS、MapReduce等云计算技术催生了大数据处理平台的事实标准Hadoop,目前,Google使用的是自己开发的Caffeine[2];Facebook结合自身的使用需求实现了Corona、Prism。一个完备、高效的大数据处理平台为实施大数据应用提供一站式的基础服务,支持应用系统从清洗、集成、分析到结果可视化展现的大数据处理全过程建设,降低了用户技术门槛[5]。因此,比较和选择有大数据特征的处理平台,有助于大数据技术研发和产业落地,实现大数据的巨大价值
二、常用大数据处理平台比较
1.Hadoop
Hadoop是由Apache开发的开源云计算平台,实现在大量计算机组成的集群中进行分布式存储和计算。Hadoop框架最核心的技术是HDFS和MapReduce。HDFS是可以部署在廉价机器上的分布式文件系统,采用主/从结构,将大文件分割后形成大小相等的block复制三份,分别存储在不同的节点上,实现了海量数据的存储。MapReduce编程模型实现大数据处理,它的核心是“分而治之”[1]。Map任务区将输入数据源分块后,分散给不同的节点,通过用户自定义的Map函数,得到中间key/Value集合,存储到HDFS上。Reduce任务区从硬盘上读取中间结果,把相同K值的数据组织在一起,再经过用户自定义的Reduce函?荡?理,得到并输出最终结果。将对巨量资料的处理并行地运行在集群上,从而实现了对大数据的有效处理。从Hadoop的核心处理过程我们可以总结出它具有如下优点[6-9]:
高扩展性。Hadoop的横向扩展性能很好,使海量数据能横跨几百甚至上千台服务器,而用户使用时好像只是面对一个。大量计算机
您可能关注的文档
- 基干教育成本视角下高校收费机制探究.doc
- 基干改进蒙特卡洛法电力系统可靠性评估.doc
- 基干数字化形势下火电厂智能化转型探析.doc
- 基干心理契约高职院校兼职教师队伍建设及激励机制.doc
- 基干成本效率DEA模型我国零售业可持续发展探究.doc
- 基干数字城市地理空间框架国土资源管理系统建设.doc
- 基干思维可视化汽车故障诊断有效教学探究.doc
- 基干数字音乐传播价值链探析.doc
- 基干数据挖掘技术在网络舆情预测中应用.doc
- 基干改进BBO算法多目标柔性作业车间调度探究.doc
- 零团费现象的法律透视与综合治理路径探究.docx
- 论网络公关不正当竞争行为的监管:问题剖析与优化路径.docx
- 马克思主义政治社会化理论中的“普遍化”问题研究.docx
- 金融危机下太钢文化战略的破局与重塑:实践、成效与前瞻.docx
- 化瘀生新汤灌肠疗法对宫腔术后月经过少的疗效及机制探究.docx
- 解析蓝光对黑曲霉生长发育的调控机制_多维度研究与应用探索.docx
- 盆腔异位肾肾动态显像前后位像GFR测定值差异及临床意义探究.docx
- 基于数值模拟的尿素选择性催化还原系统性能提升与优化策略研究.docx
- 硫对砷胁迫下秋茄幼苗渗透调节与巯基化合物的影响机制探究.docx
- ANA随机变量概率极限性质的深入探究与应用拓展.docx
最近下载
- QP—EN—订单变更控制程序.doc VIP
- 2026届广西南宁二中化学高二上期末监测模拟试题含答案.doc VIP
- (人教A版)选择性必修二高二上学期期末复习检测AB卷(基础卷)(原卷版).docx VIP
- GBT18487.1 送审稿.pdf VIP
- 2025年综合类-炉前工-初级炉前工历年真题摘选带答案(5卷-选择题).docx VIP
- 2026年青海省交通控股集团有限公司招聘笔试备考试题(45人)附答案解析.docx VIP
- 三级体系文件编写工作要求-详解.ppt VIP
- 抽水蓄能电站进出水口水力学数值模拟及模型试验规程.pdf
- GB 50058-2014 爆炸危险环境电力装置设计规范.docx VIP
- 临时占道施工方案及安全措施.docx VIP
原创力文档


文档评论(0)