- 1、本文档共102页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统硬件拓扑图 数据仓库服务器 数据分析服务器 数据抽取服务器 数据挖掘服务器 WEB服务器 省中心局域网 广域网 广域网 存储及备份系统 防火墙 管理终端 … 相关部门客户层 … 相关部门客户层 Internet 第六十三页,共一百零二页。 第六十四页,共一百零二页。 SAN典型结构 第六十五页,共一百零二页。 存储方式比较 第六十六页,共一百零二页。 存储估算 数据仓库数据 3NF Star-Schema 数据集市 Star-Schema Cube 第六十七页,共一百零二页。 3NF计算公式 总容量=∑源数据i * (1+索引因子) * RAID 因子 源数据i=单条记录字节数 * 记录数/人.天 * 用户数*有效用户系数 * 天数/月 * 保存月数 说明: 索引因子 = 0.7 RAID因子 = 1.25按RAID5考虑 记录数/人.天 = 8 用户数*有效用户系数 = 200万/600万/1200万 天数/月 = 31 保存月数 = N 注:以上计算基于Oracle数据仓库引擎 第六十八页,共一百零二页。 Star-Schema的计算 维表 用来描述属性数据,通常数据量很小,可以忽略不计。 事实表 记录的大小取决于分析的内容,包括每个维值的代码和汇总数值的大小。 记录的数量取决于分析维度的多少和每个维度可能出现的值的个数。 事实表大小= 事实表记录大小x 各维值取值数x 压缩比因子 业务主题总数据量= 各事实表大小的总和 星型数据存储量= 业务主题总数据量x (1+索引因子) x RAID 因子 第六十九页,共一百零二页。 存储估算(600万为例) 语音业务用户 本地话单每年存储量为: 230*8*600万* 31 * 12 = 4.11T 漫游话单每年存储量为: 230*10% * 8*600万* 31 * 12 = 0.411T 语音业务用户话单每年总存储量为: 4.11T+0.411T = 4.521T 第七十页,共一百零二页。 数据业务及其他新业务 本地话单每年存储量为: 400*20%* 8*600万* 31 * 12 =1.44T 漫游用户话单每年存储量为: 400*20%* 10% * 8*600万* 31 * 12 = 190.4G 数据业务及其他新业务话单每年总存储量为: 1.44T+190.4G = 1.63T 存储估算(600万为例) 第七十一页,共一百零二页。 结算话单 结算话单每年存储量为: [200*600万*(8+8*10%)*50%]*31*12 = 1.97T 每年话单存储总量为: 4.521T + 1.63T + 1.97T = 8.121T 存储估算(600万为例) 第七十二页,共一百零二页。 营业部交易记录 基本上是每个客户有几条记录,但相对稳定,不会大量产生,也不随时间爆炸性增长,估算为0.6T/年。 客服数据 也会随时间增长,但增幅远小于话单数据,估算为0.6T/年。 存储估算(600万为例) 第七十三页,共一百零二页。 客户资料数据 相对稳定,以后随客户数量的增加而增长,其增幅也不大,估算为0.6T/年。 总容量? 结合上述因素,总的存储空间为: (8.121T+0.6T*3)*1.25=12.4T 存储估算(600万为例) 第七十四页,共一百零二页。 主机性能测算 TPC-C TPC-C is an on-line transaction processing benchmark TPC-H TPC-H is an ad-hoc, decision support benchmark It consists of a suite of business oriented ad-hoc queries and concurrent data modifications. The performance metric reported by TPC-H is called the TPC-H Composite Query-per-Hour Performance Metric (QphH@Size) 第七十五页,共一百零二页。 影响因素 源主机 源数据库 网络带宽 数据量(主要) 目标主机(主要) 目标数据库(主要) 第七十六页,共一百零二页。 HP Superdome + Oracle 第七十七页,共一百零二页。 IBM SP + DB2 第七十八页,共一百零二页。 NCR 第七十九页,共一百零二页。 SUN + Oracle 第八十页,共一百零二页。 4 数据访问层 信息处理 查询和报表 分析处理 基本的OLAP操作 数据挖掘 知识发现
文档评论(0)