- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadoop,性能测试报告
Hadoop性能测试 一.引言 ApacheHadoop是对Google的GFS(GoogleFileSystem)BigTable的一个开源实现,具有高扩展性、高效性、高容错性、低成本以及易于虚拟化等特性,是目前行业事实的应用标准。 大数据基准测试作用。1)它能提升大数据领域的技术、理论和算法,并挖掘出大数据的潜在价值和知识。2)它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法[5]。3)它容许用户比较不同系统的 性能,帮助选购产品。 二.大数据基准测试标准化现状和测试工具 XX年,TPC发布了基准测试标准TPCx-HS和配套的测试工具,测试重点主要是性能验证、性价比、功耗和可用性。 三.性能测试内容 HDFS读写,MapReduce执行情况和NoSQL数据库能力。 TestDFSIO基准测试:进行大文件读写,衡量指标为单个文件吞吐量和执行时间;Yarn基准测试:使用Wordcount统计输入数据中每个单词的出现次数,输入数据使用HadoopRandomWriter产生随机数据,衡量指标为执行时间,使用Sort对大数据进行排序,输入数据使用HadoopRandomTextWriter生成,衡量标准为执行时间,使用Terasort对大数据进行排序,输入数据由HadoopTeraGen产生,衡量标准是时间;Hive基准测试:对表进行简单查 询操作、连接操作、插入操作、分组操作和map连接操作,衡量标准是执行时间。 四.性能测试工具 d 1.自带工具 TestDFSIO主要用于HDFS基准性能测试,Sort工具用于MapReduce负载测试,PerformanceEvaluation工具主要用于Hbase性能测试,MRbench检验小型作业的快速响应能力,NNBench测试Namenode硬件加载过程,Gridmix可以通过模拟HadoopCluster中的实际负载来评测Hadoop性能。 2.HiBench 包括HDFS、MapReduce、SQL、网页搜索、数据分析以及机器学习等性能测试。 3.YCSB 适用于Hbase等NoSQL组件。 4.TPCx-HSKit 包含四个模块:HSGen数据生成器;HSDateCheck检查数据集和副本的符合性;HSSort数据排序;HSValidate排序后的数据校验。 主要进行吞吐量、性价比、可用性和代表功率的测试。 5.Bigbench 第一个端到端的大数据分析测试工具,含有丰富的查询集合,包含了30个查询负载。 四.测试一般过程 测试过程主要包括版本部署、运行状态检查、数据准备、测试脚本运行、数据收集展示和环境清理。通过模拟浏览器操作、Shell脚本进行数据准备和运行、Nmon工具来监控主机CPU等、 Grafana展示结果数据。 数据生成,一般对真实的数据进行建模,保持其特征进行扩展,但是需要解决两方面问题,一方面是应用特征的保持,另一方面的问题是数据生成的速度和代价。 负载选择,按照系统资源消耗可以分为:计算密集型,I/O密集型和混合密集型pagerank。 集群规模,测试与实际集群规模相差较大,规模和复杂性都较小。软件兼容性,各种各样的商业变式出现。 参考文献 [1]姜春宇,孟苗苗.大数据基准测试流程与测试工具[J].信息通信技术,XX,(06):43-46+51. [1]陈凯,魏凯,周晓敏.大数据平台基准测试标准化思考[J].电信网技术,XX,(02):14-17. [1]尤元建,吴洪学.Hadoop性能测试自动化研究[J].软件导刊,XX,(12):16-18. [2]揣立武.Hadoop平台基准性能测试工具的设计与实现[D].哈尔滨工业大学,XX. [3]张新玲,颜秉珩.Hadoop平台基准性能测试研究[J].软件导刊,XX,(01):30-32. 测试报告1,测试方法 测试主要使用shell自动测试,在shell脚本中生成配置文件后,执行拷贝替换原有配置文件,每次执行开始记录开始时间,执行完毕后计算结束时间,手动统计每次执行时间。 时间包括更改配置文件,关闭启动Hadoop,执行测试用例和清除数据程序。 单项侧室以原有默认配置为基准,每次只更改一个配置文件,每次测试完成后自动将配置文件恢复到默认值。 2,测试结果 以下数据如无说明则使用以下测试用例: ●默认是80%。 ● ●其默认值是10,将此默认值增加到100是比较常见的。 ●默认是100M对于大集群可设置为200M。此时要求 设置为512 ● ●默认-Xmx200m,分配给每个
文档评论(0)