基于Hadoop平台的稽核规则概要1.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台的稽核规则概要1

基于Hadoop平台的稽核规则测试报告 ---- GRIS平台开发部 谌章义 1. 测试过程 测试不仅要验证Hadoop平台运行稽核规则的性能,还要验证集群规模与数据量之间的关系,所以每项测试都分为3个,5个,和7个计算节点进行。 测试内容如下: 1)完全遵循现有稽核规则,将24,37号规则中涉及的视图导入Hive,作为物理表,再分别运行在Hadoop上运行24和37号规则; 2)根据Hadoop和Hive特点进行优化:对Hive中的物理表进行排序、分区等预处理,并且在Join操作中,对小表全部载入内存,以提高稽核规则运行性能; 3)为了验证Hadoop在大数据处理方面的性能,将现有数据规模扩大10倍,验证Hadoop平台运行稽核规则的性能。 4)多任务运行时的性能测试和对比 1)24号规 2)37号规则检查应列入未列入工资的情况,涉及的大数据表有两个: 2. 测试结果 2.1 完全遵循现有表结构,在Hadoop上执行稽核规则 1)37号规则测试 选取了三类测试:0600 060X——稽核编号打头的单位 06X该省公司单位 测试结果如下: 0600 207.70 200.99 190.13 161.00 060X 234.11 212.25 199.96 208.00 06X 302.79 259.90 210.04 119.00 为了对比测试结果,我们以处理的数据量为横轴,对比Hadoop集群(3,5,7节点)和Oracle的执行时间。下图是不同测试环境下,随着稽核单位增多,稽核时间的变化情况: 图1. 37号规则执行时间图 从图1中可以看到: 稽核单个单位,Hadoop性能不如Oracle; 但是随着稽核单位的增多,Hadoop的性能开始超过Oracle; 稽核单位增加,Hadoop执行时间变化比较平缓,而且节点越多,越平缓(7节点时间变化最小) 注:Oracle测试结果在稽核单位增加,数据量增大的情况下,执行时间反而出现逆增长,原因还不是太清楚(Oracle数据又BA同事提供)。 2)24号规则测试 同样选取三类测试:0600 060X——稽核编号打头的单位 06X该省公司单位 测试结果如下: 0600 229.10 219.03 224.93 72.00 060X 237.47 224.91 229.82 360.00 06X 257.34 250.56 242.31 1451.00 同样采用数据量为横轴,对比不同规模Hadoop集群与Oracle执行时间的对比。下图是不同测试环境下,随着稽核单位增多,稽核时间的变化情况: 图2. 24号规则执行时间图 从图2中可以看到: 随着稽核单位增多,Oracle执行时间变化非常明显; 原因:24号规则相对于37号规则要复杂(嵌套的层次多),而且涉及两个大表(一个500万记录,一个300万记录)的频繁Join,所以增加稽核单位后,Oracle端的时间变化非常明显。 Hadoop的执行时间变化还是非常的平稳; 虽然稽核的单位增多,数据量增大,但是Hadoop集群规模对于性能影响很小,基本处于同一水平。 原因:1)Hive将稽核规则编译生成一系列的Job,每个Job由不同的Map和Reduce组成,如24号规则会生成8个Job: Job 0: Map: 6 Reduce: 7 Cumulative CPU: 86.68 sec HDFS Read: 1247826241 HDFS Write: 7453813 SUCCESS Job 1: Map: 2 Reduce: 1 Cumulative CPU: 21.27 sec HDFS Read: 7456882 HDFS Write: 7452869 SUCCESS Job 2: Map: 6 Reduce: 7 Cumulative CPU: 119.7 sec HDFS Read: 1255279515 HDFS Write:SUCCESS Job 3: Map: 1 Reduce: 1 Cumulative CPU: 16.47 sec HDFS Read:HDFS Write: 226282 SUCCESS Job 4: Map: 1 Reduce: 1 Cumulative CPU: 6.06 sec HDFS Read: 226824 HDFS Write: 226282 SUCCESS Job 5: Map: 3 Reduce: 3 Cumulative CPU: 33.05 sec HDFS Read:

文档评论(0)

676200 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档