典型大数据计算框架分析.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

典型大数据计算框架分析

作者:赵晟姜进磊

来源:《中兴通讯技术》第02期

????????摘要:觉得大数据计算技术已逐渐形成了批量计算和流计算两个技术发展方向。批量计算技术重要针对静态数据的离线计算,吞吐量好,但是不能保证明时性;流计算技术重要针对动态数据的在线实时计算,时效性好,但是难以获取数据全貌。从可扩展性、容错性、任务调度、资源运用率、时效性、输入输出(IO)等方面对既有的主流大数据计算框架进行了分析与总结,指出了将来的发展方向和研究热点。

????????核心词:大数据分类;大数据计算;批量计算;流计算;计算框架

????????Abstract:Bigdatacomputingtechnologieshavetwotypicalprocessingmodes:batchcomputingandstreamcomputing.Batchcomputingismainlyusedforhigh-throughputprocessingofstaticdataanddoesnotproduceresultsinrealtime.Streamcomputingisusedforprocessingdynamicdataonlineinrealtimebuthasdifficultyprovidingafullviewofdata.Inthispaper,weanalyzesometypicalbigdatacomputingframeworksfromtheperspectiveofscalability,fault-tolerance,taskscheduling,resourceutilization,realtimeguarantee,andinput/output(IO)overhead.Wethenpointsoutsomefuturetrendsandhotresearchtopics.

????????Keywords:bigdata;bigdatacomputing;batchcomputing;streamcomputing;computingframework

????????近年来,随着互联网进入Web2.0时代以及物联网和云计算的迅猛发展,人类社会逐渐步入了大数据时代。根据维基百科的描述,所谓的大数据,是指所波及的数据量规模巨大,无法通过人工在合理时间内达到截取、管理、解决、并整顿成为人类所能解读的信息。大数据在带来发展机遇的同步,也带来了新的挑战,催生了新技术的发展和旧技术的革新。例如,不断增长的数据规模和数据的动态迅速产生规定必须采用分布式计算框架才干实现与之相匹配的吞吐和实时性,而数据的持久化保存也离不开分布式存储。

????????图1展示了大数据应用的一般架构,其中的核心部分就是大数据计算框架和大数据存储。大数据存储提供可靠的数据存储服务,在此之上搭建高效、可扩展、可自动进行错误恢复的分布式大数据计算框架,计算依赖存储,两者共同构成数据解决的核心服务。由于文献[1]已经对大数据存储进行总结,详述了文献系统、数据库系统、索引技术,因此文中将重点对大数据计算框架进行分析。

????????1大数据计算技术面临的

????????问题与挑战

????????大数据计算技术采用分布式计算框架来完毕大数据的解决和分析任务。作为分布式计算框架,不仅要提供高效的计算模型、简朴的编程接口,还要考虑可扩展性和容错能力。作为大数据解决的框架,需要有高效可靠的输入输出(IO),满足数据实时解决的需求。目前大数据解决需要解决如下问题和挑战,这些问题和挑战也是对大数据计算框架进行分析的重要指标。

????????(1)可扩展性:计算框架的可扩展性决定可计算规模,计算并发度等指标。既有计算框架一般采用主从模式的架构设计,便于集群的管理和任务调度,但主节点会成为系统的性能瓶颈,限制了可扩展性。此外,在既有弹性计算集群部署中,不断动态添加、删除计算节点,迅速平衡负载等也对系统可扩展性提出挑战。

????????(2)容错和自动恢复:大数据计算框架需要考虑底层存储系统的不可靠性,支持浮现错误后自动恢复的能力。顾客不需要增长额外的代码进行快照等中间成果的备份,只需要编写相应的功能函数,就可以在有输入的条件下得到预期的输出,中间运营时产生的错误对使用人员透明,由计算框架负责任务重做。

????????(3)任务调度模型:大数据计算平台中往往存在多租户共同使用,多任务共同执行的状况。既要保证各顾客之间使用计算资源的公平性

文档评论(0)

132****1010 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档