基于Hadoop大数据存储及处理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop大数据存储及处理

基于Hadoop大数据存储及处理   【摘要】随着目前互联网数据爆炸式的增长,传统的数据存储和处理方式已经不能够适应数据的增长速度,并且当今生成的大量数据多为web存储的数据结构,其数据存储格式不统一、数据结构多样化,给数据的处理带来了极大的困难。Hadoop技术的出现给大数据时代提供了一个可用的云计算平台,其分布式文件系统实现了数据的安全备份与存储。   【关键词】大数据;Hadoop;分布式系统;数据备份   随着计算机网络的普及,web技术和Internet在当今世界产生大量的数据,这些海量数据远远超过有记载以来所产生的数据总量。以天文学为例,2000多年以来,整个天文学的数据累积到现在是140兆兆字节的信息,而位于新墨西哥州阿帕奇山顶天文台的2.5米口径望远镜进行的红移巡天项目,在短短几个星期内就收集到多于140兆兆字节的信息量。这些海量数据每年以超过50%的速度增长,多方面的数据显示,我们已经进入了大数据时代。   由于数据量爆炸式增长,数据处理手段也是复杂多样,再加上数据结构不象传统数据那样统一存储,所以数据分析处理技术就显得尤为重要。如果数据得不到很好的处理,则海量的数据就没有任何意义,要想真正的拥有这些数据,需要解决以下几个问题:   1、存储系统的改变   数据量急剧增加,使得原有的存储系统和方法不能适应新产生的大量数据的存储要求。   2、复杂的数据结构存储   原有存储方案中,一种类型的数据库只能存储一种结构的数据。大数据的产生使得数据结构已经由原来单一的结构化数据变为结构化、非结构化、半结构化数据并存的局面。这种多数据结构的数据在目前只能存放单一数据结构的数据库中已经没有办法存储了。   3、数据处理难度增大   和处理单一的数据类型不同,将多种数据结构的数据整合、分析、挖掘并从中得出有价位的信息的难度大大增加。   对伴随大数据产生的新问题,可以逐一的解决。由于数据量极大,原来由单一媒体存储的数据,可以通过技术构建分布式存储系统,将大量数据分别存储在不同的存储系统里,不仅可以实现海量数据的存取,而且可以方便实现分布系统扩展。对于数据结构不同的问题,可以通过设置多种存储引擎,为每种数据结构提供合适的存储方案,来代替以前的结构化为主体的存储方式。多种类型的数据结构给数据分析带来极大的困难,而数据分析是数据存在的主要意义。可以通过对多种结构的数据进行集成,实现对在同一架构下对多种数据结构的分析。   Hadoop技术是解决上述问题的最好的实现框架。Hadoop是由Apache基金会开发的一种分布式平台,并且是开源的,是目前应用最为广泛的云计算软件平台。当前在行业中存在多种云计算的平台,如主要有亚马逊的EC2,谷歌的App Engine,IBM的蓝云,微软的Azure等等.Hadoop和其它的云计算平台相比主要有以下几个特点:   1、高性能   在数据测试中,Hadoop可以对PB数量级的大数据进行同时处理操作,并将结果提供给其它应用。研究人员做过大量测试,以2011个节点的Hadoop集群来进行基准测试,100GB的数据仅仅130秒中就完成了,这种数据处理能力是其它平台所不能完成的。   2、高扩展性   由于Hadoop技术主要是针对大数据操作的云计算平台,在设计的时候充分考虑到平台的可扩展性。得用Hadoop技术可以将数据轻松上万台服务节点来实现数据的存储和分析,即实现分布式的存储和分布式的数据处理。这对传统的关系型数据库处理系统及非结构化数据处理技术来讲是不可想象的,这种可扩展性有利于数据量更大时的集群拓展工作。   3、成本效益高   传统的存储方案在存储大量重要数据的时候,往往要进行数据备份,这就对存储系统提出很高要求,而且成本大大提高。而Hadoop可以利用其高扩展性的特性,将数据存储到其扩展空间上来完成数据的存储,同时,Hadoop还可以通过保存副本的技术来保证数据的完整性和容错性。同时,由于Hadoop本身对硬件要求不高,所以它可以架构在众多低廉的设备中,以较低的成本来完成较高的收益,使得技术成本大大降低。   4、广泛应用   由于Hadoop计算平台的众多优点,加上其技术难度不高,所以它现在成为了互联网上应用最为广泛的云计算平台。目前,微软、百度、雅虎、IBM、甲骨文、淘宝等国内外大公司都积极进行Hadoop的开发和使用,众多公司也都利用此项技术为用户提供了更为全面的服务。   5、开源性   和其它的开源性技术软件一样,Hadoop的出现给云计算平台带来大量业务和服务质量的大幅度提高。作为对谷歌的MapReduce和GFS技术的开源实现,其核心技术在海量网络数据处理业务中具有明显的优势。Hadoop的技术架构如表一所示   Pig:数据

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档