构建海量数据仓库解决方案课件.ppt

下载文档 降价啦

26
0
约4.88千字
约 42页
2018-06-23 发布于贵州
举报
版权申诉
保障服务

构建海量数据仓库解决方案课件.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

构建海量数据仓库解决方案课件

议程介绍逻辑设计物理设计硬件问题 ETL开发运行 T3 数据仓库系统的组成部分? 数据仓库系统 = ETL + 关系型数据存储 + OLAP + 客户端 + 元数据 ? + 数据集市 ? + 数据挖掘 ? + Operational Data Store (ODS) ? 数据仓库系统包括OLAP和客户端数据仓库系统 = ETL + 关系型数据存储 + OLAP + 客户端为什么使用OLAP? 丰富的查询功能速度对客户端多维模型的支持 Analysis Services 应当是几乎所有数据仓库的组成部分海量数据仓库的特征数据量数以TB计的数据量需要深思熟虑的管理用户数上百乃至上千的用户，要求很高的稳定性和查询性能大型的服务器或分布式系统需要数据中心级的运作管理基于因特网的访问意味着多服务器和负载均衡需要为内部、外部和公共用户提供服务关键任务仔细的数据管理以防止数据丢失，保证数据的可用性大型数据仓库的常见问题 ETL: 在分配的时间槽内完成数据处理查询性能小型数据仓库总是比大型的要快管理的复杂性索引的备份, “裁剪” 等. 硬件成本和管理问题议程介绍逻辑设计物理设计硬件问题 ETL开发运行 T3 构建大型数据仓库的替代方法清除无用的数据采用适当的数据粒度仅将细粒度的详细信息用于: 统计取样 (例如： 5% 的客户) 一段很短的时间 (如一天) 对于Web日志是很好的方式设计范例点击流数据仓库, 从代理服务器日志取数据.需求: 内部站点的访问起点是什么？订阅者访问哪些内部网页？订阅者访问的频率有多高，访问时间有多长？解决方法: 清除所有的图像点击, 仅保存主要的页面访问 (清除 90% 的数据) 以日为单位聚集页面点击, 按用户、页面和参照页面分组 (再削减 75% 数据) 为详细的连接历史建立单独的模型 (用一条记录表达每一次连接或访问) 90天后将详细数据归档超大型维度超大型维度 (5百万以上的成员) 是数据仓库面临的巨大挑战在关系数据库或多维数据库中都是挑战大型服务的每一个客户 (例如：ATT 的电信客户; M的访问者) 一个服务中的每一个Web页面(例如：AOL或WebTV) 随着时间的增长, 用2型慢速变化维度对付超大型维度(50万 – 500万个成员)的特征用户的应用程序需要成员级的详细信息吗？通过Drillthrough提供对单个成员的详细信息访问议程介绍逻辑设计物理设计硬件问题 ETL开发运行 T3 关系数据库中的键和索引代理 (整型)键总是推荐使用代理键选用经可能小的整数减小事实表的尺寸用于维护键和索引的代价很高索引的需求 ETL 过程和数据的完整性 Cube数据装载查询 Cube的drillthrough查询索引技巧使用索引调节向导(Index Tuning Wizard)!!! Distinct Count Cube数据装载查询中包含ORDER BY子句优化事实表的索引例子 Cube1 包含Distinct Count度量值 Cube2 包含相同的维度和其他度量值用虚拟Cube将二者组合在一起数据仓库的分区 RDBMS中的分区意味着将实施表分割为多个表、最适合的情况：分区和业务功能的分割一致利用时间段进行分区好处: 索引, 备份, 数据 “裁剪” 和数据装载在Analysis Services中, cube也可以进行分区推荐在大型Cube中使用并行数据处理(Cube Processing), 尤其是初始数据装载查询性能，提高查询的选择性议程介绍逻辑设计物理设计硬件问题 ETL开发运行 T3 RDBMS硬件: 内存, 处理器, 网络, 存储大内存!大内存!!大内存!!! RDBMS可通过Windows AWE使用大内存 (3 GB以上) 处理器将数据加载(ETL)程序设计为并行装载和处理数据网络带宽在源数据系统和RDBMS间建立高速连接将事实数据分布在多个控制器和多个磁盘上使用文件分区提高数据备份和恢复的性能 Analysis Services硬件: 内存和网络内存: 分析服务器一般最多使用4 GB内存 (64位硬件解决了这个问题) 维度内存处理缓冲区结果集缓存网络带宽在RDBMS和Analysis server建立高速带宽 Analysis Services硬件: 存储存储空间需求通常MOLAPU的数据大小是源数据的20%-40% ROLAP会更多但都在RDBMS中 HOLAP会更少磁盘配置一个逻辑驱动器使用RAID和条带集使用多个控制器以获得更高的带宽 Analysis Services硬件: 处理器对于查询一个查询