数据仓库和数据挖掘的OLAP技术.pptVIP

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
方体计算的多路数组聚集方法(3) A B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C 44 28 56 40 24 52 36 20 60 B 方体计算的多路数组聚集方法(4) 方法:各平面要按他们大小的升序排列进行排序和计算 思想:将最小的平面放在内存中,对最大的平面每次只是取并计算一块 方体计算的多路数组聚集方法(5) 根据1到64的扫描次序,在块内存中保存所有相关的2-D平面所需的最小存储为: 40×400(用于整个AB平面)+40×1000(用于AC平面一行)+100×1000(用于BC平面一块)=156,000 这种方法的限制:只有在维数比较小的情况下,效果才比较理想(要计算的立方体随维数指数增长) 如果维的数目比较多,可以考虑使用“自底向上的计算”或者时“冰山方体” 计算 OLAP查询的有效处理 确定哪些操作应当在可利用的方体上执行: 将查询中的选择、投影、上卷和下钻等操作转化为对应的SQL或/和OLAP操作,如:dice = selection + projection 确定相关操作应当使用哪些物化的方体 找寻MOLAP中可以利用的索引结构以及压缩的或是稠密的数组结构 有效处理OLAP查询(示例) 立方体的定义为:sales[time,item,location]: sum(sales_in_dollar) time的维层次 dayweekmonthquateryear location的维层次 streetcityprovince_or_statecountry item的维层次 item_namebrandtype 现在要处理一个year=2000,定位在brand和province_or_state级别的查询,现有四个可用的已经物化的方体: {item_name, city, year} {brand, country, year} {brand, province_or_state, year} {item_name, province_or_state}其中year=2000 Question:以上四个方体,选那个来处理查询? (要考虑计算的量,以及可以使用的索引等因素) 元数据存储 在数据仓库中,元数据就是定义数据仓库对象的数据。有以下几种: 数据仓库结构的描述 仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容 操作元数据 包括数据血统(data lineage)、数据类别(currency of data),以及监视信息 汇总用的算法 由操作环境到数据仓库的映射 关于系统性能的数据 索引,profiles,数据刷新、更新或复制事件的调度和定时 商务元数据 商务术语和定义、数据拥有者信息、收费政策等 元数据的使用 元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。 在数据仓库中,元数据的主要用途包括: 用作目录,帮助决策支持系统分析者对数据仓库的内容定义 作为数据仓库和操作性数据库之间进行数据转换时的映射标准 用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。 数据仓库后端工具和程序 数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括: 数据提取: 从多个外部的异构数据源收集数据 数据清理 检测数据种的错误并作可能的订正 数据变换 将数据由历史或主机的格式转化为数据仓库的格式 装载 排序、汇总、合并、计算视图,检查完整性,并建立索引和分区 刷新 将数据源的更新传播到数据仓库中 数据仓库的应用 数据仓库的三种应用 信息处理 支持查询和基本的统计分析,并使用交叉表、表、图标和图进行报表处理 分析处理 对数据仓库中的数据进行多维数据分析 支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等 数据挖掘 从隐藏模式中发现知识 支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果 三种应用间的差别 从联机分析处理到联机分析挖掘 为什么要联机分析挖掘 数据仓库中有高质量的数据 数据仓库中存放着整合的、一致的、清理过的数据 围绕数据仓库的信息处理结构 存取、集成、合并多个异种数据库的转换,ODBC/OLEDB连接,Web访问和访问工具等 基于OLAP的探测式数据分析 使用上卷、下钻、切片、转轴等技术进行数据挖掘 数据挖掘功能的联机选择 多种数据挖掘功能、算法和任务的整合 联机分析挖掘的体系结构 数据仓库 元数据 多维数据库 OLAM 引擎 OLAP 引擎 用户图形界面 API 数据方体 API 数据库 API 数据清理 数据

您可能关注的文档

文档评论(0)

younaifcg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档