大数据产品测试方法论.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据产品测试方案 联通系统集成有限公司 研发背景、意义 1 测试范围及环境 2 目录 测试方案 3 测试厂家要求及已测试功能 4 3 本次测试面向不同厂家的hadoop产品,从不同纬度对厂家产品功能、性能进行验证,得出验证结果,并针对DW2.0平台规范中提出的一些功能进行技术验证,对hadoop产品选型提供可靠依据。 背景 研发背景、意义 1 测试范围及环境 2 目录 测试方案 3 测试厂家及测试功能 4 5 Hadoop通用平台功能要求 Hbase及相关API组件 数据高可用,region 迁移 客户端读写API接口 数据压缩 数据有效期 基于Hbase的MR作业引擎 线性扩展 容错 Hive组件 异构数据源互通工具 Hadoop平台功能增强功能要求 SQL over Hadoop作业引擎 Hadoop数据生命周期管理 Hadoop安全 HDFS级安全控制 客户端接入安全控制 Hadoop活动监控及审计 Hadoop安全策略 Hadoop安全报告 Hadoop数据隐私管理 提供LDAP 或者LDAPS进行授权访问 Hadoop性能与兼容性增强 Hbase索引 HDFS读写能力增强 支持Hive调用外部MapReduce脚本 Hive关联查询增强 MapReduce性能增强 支持大规模索引和搜索构建框架 POSIX兼容性支持 小文件支持改善 提供高级文本分析功能 中文和英文的文本分析,非结构化文本的读取、分词、特征选择、信息抽取、自动摘要和舆情分析等 平台维护及资源监控 Hadoop集群的可视化监控 测试范围 功能性测试列表 6 测试方法 功能测试方法 采用手工测试的方法,分别对hadoop平台的基本功能和hadoop及 其组件增强功能进行功能验证,并形成厂家产品的功能验证结果对比。 性能测试方法 分别将测试数据文件(1T)从本地加载到hdfs,hbase及hive中,记录数据加载速率。并分别对hdfs的数据文件进行运算以及对hbase和hive中的数据进行查询,记录运算及查询速度。 结果正确性校验 针对大数据平台的运算结果可能出现偏差,所以需要对平台的运算结果进行正确性校验,校验方法为,提供一部分测试数据,并将测试数据分别导入到关系型数据库(oracle)以及待验证平台中,然后进行相同的查询,将平台得出结果与关系型数据库得出的结果进行比对。 7 测试数据描述 本次测试使用数据统一采用移动上网用户记录其中一省的数据,通过FTP进行采集,每天数据量大约250G左右,连续采集15天数据,数据总量3.5T。数据共一类数据,本次验证需要的原始数据以文件形式存在,数据文件字段内容如下: 1 手机号码 不包含字冠如+86,0086,86 14 访问IP 通信对端IP地址,没有IP信息的填空,对于有多个IP的业务,输出合并的流量记录,访问IP只填第一个IP 2 位置区编码 省分区域编码 15 状态码 业务状态码字典表,对于合并的记录,状态码有多种的情况,取第一个状态码,避免合并记录状态码叠加的情况(如200+201+202)。 3 CI号码 当有网络切换时,选择第一个CI 16 User Agent 采集全部信息 4 终端类型 IMEI 17 APN 如3gwap,3gnet,uniwap,uninet,cmwap,cmnet 5 流量类型 流量类型 18 IMSI   6 开始时间 YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙 19 SGSN IP SGSN的IP地址,填接入第一个 7 结束时间 YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙 20 GGSN IP GGSN的IP地址, 8 持续时长 以秒为单位 21 内容类型 Content-Type 9 上行流量 以bytes为单位 22 源端口   10 下行流量 以bytes为单位 23 目的端口   11 总流量 以bytes为单位 24 记录标识 0:表示未合并且未分割的记录; 1:表示合并过且未分割的记录;2:表示未合并但是分割过的记录;3:表示合并过且分割过的记录; 12 网络类型 RATType取值为1代表3G;2代表2G 25 合并记录数 记录标识为1,3时,本字段表示合并的记录数目;当记录标识为0,2时:本字段为空 13 终端IP 用户每次请求和应答的IP地址 26 网址/特征信息 对于具备URL/URI的业务填充URL/URI信息,不携带的业务填充特有信息 8 集成公司提供的环境(千兆交换机) 演示平台采用Hadoop技术架构实现数据的存储和应用查询功能,整个平台包含FTP入库系统、基于Hadoop架构的数据存储系统、统一作业管理、ETL作业引擎、互联网行为分析应用,提的戴尔C6100服务

文档评论(0)

糖糖 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档