数据仓库和数据挖掘的OLAP.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * 多路数组聚集 将数组分成块,块的大小能够放入立方体计算时可用的内存. 通过访问立方体单元进行聚集,使得每个单元必须重新访问的次数最小化. 实例分析 如图2-15所示 40*400*4000立方体,分成64块 策略是多利用小的立方块. 所以最佳的是AB平面40*400+AC平面的一行40*1000+BC平面的一块100*1000 总计是156000.如果次序是BC,AC,AB则所需内存是400*4000+40*1000+10*100 =1641000,是最佳策略的10倍以上. 索引OLAP数据 位图索引:如图2-17所示,与散列和树索引相比,位图索引将比较,连接和聚集都变成了位算术运算,大大减少了运行时间. 连接索引:源于关系数据库的查询处理. 位图连接索引:将连接索引和位图索引集成. OLAP查询的有效处理 确定那些操作应当在可利用的方体上执行,这涉及将查询中的选择投影上卷下钻操作转换成对应的SQL或OLAP操作. 确定相关操作应当使用哪些物化的方体,这涉及到找出可能用于查询的所有物化方体. 具体步骤 考察的方体必须与查询具有相同的维集合,或是它的超集. 选择代价最小的方体. 元数据存储 元数据是定义数据仓库对象的数据.元数据 的存储包括 数据仓库结构的描述 对元数据的操作 汇总用的算法 由操作环境到数据仓库的映射 关于系统性能的数据 商务元数据 数据仓库后端工具 数据提取:从多个异种的外部数据源收集数据. 数据清理:检测错误,可能时修改错误. 数据变换:将数据转换成数据仓库格式. 装入:排序,综合,合并,计算视图,检查整体性,并建立索引和划分. 刷新:传播由数据源到数据仓库的更新. 进一步发展和探讨 发现驱动的探查:预计算的度量指出数据异常,避免人工检查数据. 扩充SQL语句的实现(多粒度上的复杂聚集). 联机聚集,可以显示迄今为止所知道的,而不是等待查询完全处理完. 最高N查询,只查询最高的N项,而不是整个排序的表,这导致较快的响应时间并减少资源浪费. 数据仓库的应用 信息处理:支持查询和基本的统计分析,并使用表或图进行报告. 分析处理:支持基本的OLAP操作,在汇总的和细节的历史数据上操作. 数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果. 联机分析挖掘(OLAM) 将联机分析处理与数据挖掘集成,有以下几 个原因: 数据仓库中数据的高质量:大部分数据挖掘工具需要在集成的一致的和清理过的数据上进行,经由这些预处理而构造的数据仓库不仅用作OLAP而且也用作数据挖掘的数据源. 环绕数据仓库的有价值的信息处理基础设施:谨慎的做法是尽量利用可用的基础设施,而不是一切从头做起. 基于OLAP的探测式数据分析:有效的数据挖掘需要探测式数据分析.用户常常想在不同粒度上分析它们.联机分析挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘的工具. 数据挖掘功能的联机选择:用户常常不知道想挖掘些什么.通过将OLAP与多种数据挖掘功能集成在一起,联机分析挖掘为用户选择所期望的数据挖掘功能动态修改挖掘任务提供了灵活性 * * * * * * * * * * * * * * * * * * * * * 数据仓库和数据挖掘的OLAP 报告人:李皓 什么是数据仓库 数据仓库是一个面向主题的,集成的,时变的,非易失的的数据集合. 面向主题的 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图. 集成的 构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性 时变的 数据存储从历史的角度提供信息.数据仓库的关键结构,隐式或显式地包含时间元素. 非易失的 数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制.通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问. 操作数据库与数据仓库的区别 操作数据库系统的主要任务是联机事务处理OLTP 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP OLTP和OLAP的区别 用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理 OLAP是面向市场的,用于数据分析 数据内容: OLTP系统管理当前数据. OLAP系统管理大量历史数据,提供汇总和 聚集机制. 数据库设计: OLTP采用实体-联系ER模型和面向应用的 数据库设计. OLAP采用星型或雪花模型和面向主题的数 据库设计. 视图: OLTP主要关注一个企业或部门内部的当前 数据,不涉及历史数据或不同组织的数据 OLAP则相反. 访问模式: OLTP系统的

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档