大数据平台基准测试流程(测试工具)解析.docVIP

大数据平台基准测试流程(测试工具)解析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
43 引言 互联网的普及已经连接了全世界近30亿人口,目前,互联网上的网页数目已经突破10亿[1],大量的数据在网络中产生,而新的互联网技术和应用的结合形成了丰富的数据源,并带来数据量爆发式的增长。大数据在数据量、数据类型和处理时效性等方面带来了新的挑战,应运而生的大数据处理技术采用分布式文件系统、分布式并行计算框架等模型以低廉的价格解决大数据的挑战。新的计算框架和数据库系统层出不穷,大数据产品和系统不断推陈出新,催生出对这些产品和技术进行基准对比的需求。 大数据基准测试从具体应用中抽象出有代表性的负载,根据真实数据的特征和分布生成可扩展的数据集,以相应的指标衡量负载处理数据集的效果,以此来比较大数据处理系统的性能。本文结合大数据处理系统的特点,阐述大数据基准测试的要素和构建流程,最后从数据、负载和软件栈等方面比较现有基准测试工具,并展望未来基准测试工具的发展方向。 1 大数据起源和特点 随着互联网技术的发展,产生了越来越多的数据来源。互联网应用记录着用户每天在网上的行为数据, 用户的社交数据、搜索数据、购物数据都被一一记录下来。而线下的生活也处处与网络相关,通话记录、医疗数据、环境数据、财务数据也通过网络留存下来。工业互联网中的机器配备了传感器和网络传输装置,积累了大量机器数据。物联网连接地球上所有的人和物,感知并跟踪着物体和人的状态。据IDC 预测,从2005年到2020年,全球数据量将会从130EB 增长到40ZB [2]。 随着数据源种类的激增,新的数据不仅在数据量上有了很大的体量,其数据结构也不同于以往的关系型数据结构,智能设备、传感器和各种应用的兴起,视频、图片、音频、文档、网页和日志等大量非结构化的数据蜂拥而来,为当前的数据处理带来新的挑战。互联网服务的进化,使得用户对数据处理的速度有了更高要求,数据量规模和数据类型复杂性的增加对大数据处理速度带来挑战。IBM 从四个维度定义大数据,即数量(Volume、种类(Variety、速度(Velocity、真实性(Veracity[3]。大数据具备大体量、多样性、高时效性和真实性等特征。 2 大数据处理平台的构成 大数据的大体量、多样性和处理的时效性是传统单设备纵向扩展无法解决的,这种挑战首先在互联网搜索中体现出来,搜索引擎需要检索和存储的网站数量庞 大数据基准测试流程与测试工具 姜春宇1 孟苗苗2 1 工业和信息化部电信研究院标准所,云计算标准与测试验证北京市重点实验室 北京 1001912 中国联合网络通信有限公司 北京 100033 摘 要 当前大数据产品和技术的发展非常迅速,市场中存在各种各样的商业版和开源的大数据软件,这些大数据系统解决了大数据大体量、多样性、时效性的挑战。随着大数据产品和技术成熟,如何去测试和评估这些大数据产品成为新的研究主题。文章简要介绍大数据兴起的背景,综述大数据处理系统的主要构成,并针对大数据处理系统的特点,提出构建大数据基准测试平台的要素和流程,最后介绍当前大数据基准测试工具和存在的问题,展望未来大数据基准测试工具的发展方向。 关键词 大数据;大数据平台;大数据基准测试;数据;负载;指标 研究与开发 Research Development 44 大,以非结构化数据为主,为此谷歌率先于2004年提出一套分布式数据处理的技术体系,即能够横向扩展的分布式文件系统(GFS、分布式计算系统(MapReduce和分布式数据库(BigTable等技术,以较低成本很好地解决了大数据面临的困境,奠定了大数据技术的基础。受谷歌论文启发,Apache Hadoop 实现了自己的分布式文件系统(HDFS、分布式计算系统(MapReduce和分布式数据库(Hbase,并将其开源,从而加速了大数据技术和应用的发展。大数据处理平台主要由分布式文件系统、分布式计算平台、分布式存储系统等构成。以Hadoop 为例,其基本组件如图1所示。 图1 Hadoop基本组件 3 大数据基准测试要素 基于Hadoop 和Spark 原理的大数据处理平台在工业界和学术界都得到了广泛应用,谷歌、Facebook 、百度、阿里巴巴等互联网公司早已研发部署了大数据处理系统,越来越多的中级企业开始在大数据基础平台之上开发大数据应用,IDG 调研了751家企业,其中49%的企业反馈已经或正在实现大数据项目[4]。尽管大数据的平台和应用发展迅速,但缺少基准来衡量大数据平台的性能,而且大数据系统的复杂性、多样性和变化性为评估带来很大困难。 大数据基准测试能够评估和比较大数据系统和架构,其主要作用有三个方面。1 它能提升大数据领域的技术、理论和算法,并挖掘出大数据的潜在价值和知识。2 它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法[5]。3 它容许用户比较不同系统的性能,帮助

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档