国产大数据机应用报告.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国产大数据机应用报告.doc

国产大数据机应用报告 摘要 国内某硬件生产厂商主营从事加固型硬件生产,为了迎合大数据时代的发展趋势,我们与其在国产大数据库机研发领域进行了深入合作。由其提供的硬件群组环境,采用国产芯片,搭配翰云数据库组建的高可靠集群,能够提供高效稳定的综合数据处理服务,在兼容传统关系型数据库方面可以无缝对接。该应用表明,采用国产芯片和翰云分布式数据库的国产数据库机在OLAP业务处理方面达到国际主流数据库的性能指标。 测试目标 基于W公司提供的S服务器其软硬件平台搭建翰云数据库集群,通过加载测试样例数据,执行模拟业务逻辑的SQL查询,进一步评估该大数据一体化平台的可用性和性能指标。 测试 依据测试目标,我们拟定了三个测试项,如下所示: 1)TPCH基准测试 2)FAUDIT扩展测试 3)EMAIL索引测试 测试测试 2014/12/24 ~ 2014/12/26 测试环境 集群配置: 3个 虚拟节点 3*3 = 9个 网络带宽 1 Gbps(国产交换机) 节点配置: 型号 处理器 内存 硬盘 系统 Jdk1.7 数据库 CloudWave 3.2.4 测试 TPCH基准测试: 用例编号 TC--0001 用例状态 测试人员 执行日期 测试目的 测试内容 用例编号 TC--1001 用例状态 测试人员 执行日期 测试目的 测试内容 3个节点(1个物理节点+2个虚拟节点) 测试结果1 SQL查询:19分9秒 测试环境2 7个节点(2个物理节点+5个虚拟节点) 测试结果2 SQL查询:6分35秒 测试环境3 11个节点(3个物理节点+8个虚拟节点) 测试结果3 SQL查询:3分19秒 用例编号 TC--1002 用例状态 测试人员 执行日期 测试目的 测试内容 建立索引前,执行检索查询 测试结果1 SQL查询:45秒 测试环境2 建立索引后,执行检索查询 测试结果2 SQL查询:2秒 EMAIL索引测试: 用例编号 TC--2001 用例状态 测试人员 执行日期 测试目的 测试内容 测试 TPCH基准测试: 作为OALP分析型数据库的基准测试规范,这次我们在W公司提供的环境中仍然加载并执行了TPCH测试集,选取的数据规模是10GB。在数据加载过程中,IP地址为192.168.0.203的虚拟机出现了3次故障,现象是能够PING通,但SSH连接时出现挂起不响应,后跳过203节点,后续测试过程中其它节点表现正常。 测试项 数据加载 SQL查询 TPCH10 213sec 2.08小时 数据装载测试是把含有样本数据的文本文件装载到翰云数据库中,数据量大概是1亿条记录(10GB),SQL查询测试是把TPCH规范规定的22个查询顺次执行一遍,记录总的响应时间。 FAUDIT扩展测试: FAUDIT测试集模拟实际的互联网安全监管需求,测试中借助工具随机生成了10亿条样本数据,通过调整集群大小:3个节点-7个节点-11各节点,通过执行带有全表查找和大集合排序的SQL语句,观察和评估集群性能指标与集群规模的关系,如测试TC-FAUDIT-1001中所述: 测试项 查询时间 性能比率 3个节点 19.15分 1 7个节点 6.58分 2.91 11个节点 3.31分 5.78 通过这个结果,我们能够清晰地看到,翰云数据库的集群性能随着集群规模的扩大,而呈现出快速提升。尤其是数据结构简单,查询语句不需要迭代计算时,这种提升尤为明显。而对于TPCH这类关系复杂,需要大量多次迭代计算的业务逻辑,集群性能同样会随着集群规模的增大而提升,但提升因子略低于1:1的线性关系。 在FAUDIT数据集上,我们还为源IP、目标IP字段创建了字段索引,这样基于字段的查找就会极大缩短响应时间,典型的业务SQL秒级响应。 EMAIL索引测试: 作为半结构化数据的一种特例,EML格式的邮件文件,可以写入到关系型的翰云数据库中,并将邮件本身作为BFILE存储到翰云数据库。我们在邮件数据的主题和内容部分建了全文索引,这种索引是基于中英文切词的索引技术,能够快速地根据某个关键字找到相应的文本数据。 使用翰云提供的工具,能够自动地完成邮件数据的萃取、加载,并为之建立全文索引,数据加载的过程能够使用多线程并发加载的方式提高入口带宽,从而有效地提升邮件文件的处理速度。 因为能够用于测试的邮件样本较少,在我们的测试中,我们只是选用了100封左右的邮件文件作为演示示例,更大规模的测试可以后续进行。 测试 通过已经开展了多次的适配测试和集成调优,翰云数据库与国产平台绑定的大数据机已经趋于稳定;翰云数据库灵活的分布式架构与大数据平台的设计理念高度一致,翰云数据库高度容错的集群设计能够为大数据平台的可靠运维提供

文档评论(0)

seym + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档