数据挖掘与知识获取课件3、数据仓库和数据挖掘的OLAP技术幻灯片.ppt

数据挖掘与知识获取课件3、数据仓库和数据挖掘的OLAP技术幻灯片.ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
索引OLAP 数据: 位图索引 位图索引(bitmap indexing)是针对特定列建立的索引 列上的每个值是一个位向量 ( 位操作的速度很快) 位向量的长度: 数据表中对应列的基数 如果数据表中给定行的属性值为v, 则在位图索引的对应行, 表示该值的位为1, 该行的其它位均为0 不适合基数(不同值个数)很高的域 数据表 在 Region上索引 在 Type上索引 索引OLAP 数据: 连接索引 连接索引: JI(R-id, S-id) where R (R-id, …) ?? S (S-id, …) 传统的索引将给定列上的值映射到具有该值的行的列表上——一个开销很大的连接操作 在数据仓库中, 连接索引登记来自关系数据库的两个关系的可连接行。 例如, 事实表: sales 和两个维 item 和 location 在location维上的一个连接索引为每个location维护着跟这个location相关的一系列的销售的行 连接索引可以跨越多维(P92,图3-17) OLAP查询的有效处理(1) 确定哪些操作应当在可利用的方体上执行: 将查询中的选择、投影、上卷和下钻等操作转化为对应的SQL或/和OLAP操作,如:dice = selection + projection 确定相关操作应当使用哪些物化的方体 找寻MOLAP中可以利用的索引结构以及压缩的或是稠密的数组结构 OLAP查询的有效处理(2----示例) 立方体的定义为:sales[time,item,location]: sum(sales_in_dollar) time的维层次 dayweekmonthquateryear location的维层次 streetcityprovince_or_statecountry item的维层次 item_namebrandtype 现在要处理一个year=2000,定位在brand和province_or_state级别的查询,现有四个可用的已经物化的方体: {item_name, city, year} {brand, country, year} {brand, province_or_state, year} {item_name, province_or_state}其中year=2000 Question:以上四个方体,选哪个来处理查询? (要考虑计算的量,以及可以使用的索引等因素) 3.5 从数据仓库到数据挖掘 数据仓库的使用(1) 通常,数据仓库使用时间越长,进化得越好 数据仓库的进化过程 主要用于产生报告和回答预先定义的查询 用于分析和汇总详细数据,结果以报表和图表形式提供 用于战略目的,进行多维分析和复杂的切片和切块操作 用于知识发现,并使用数据挖掘工具进行战略决策 数据仓库的四种工具 访问与检索工具 数据库报表工具 数据分析工具 数据挖掘工具 数据仓库的使用(2) 数据仓库的三种应用 信息处理 支持查询和基本的统计分析,并使用交叉表、表、图标或图进行报告 分析处理 对数据仓库中的数据进行多维数据分析 支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等 数据挖掘 从隐藏模式中发现知识 支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果 从联机分析处理到联机分析挖掘 为什么要联机分析挖掘 数据仓库中有高质量的数据 数据仓库中存放着整合的、一致的、清理过的数据 具有环绕数据仓库的信息处理基础设施 访问、集成、合并和多个异构数据库的变换,ODBC/OLEDB连接,Web访问和服务机制,报表和OLAP分析工具等 基于OLAP的探测式数据分析 使用上卷、下钻、切片、转轴等技术进行数据挖掘 数据挖掘功能的联机选择 多种数据挖掘功能、算法和任务的整合 联机分析挖掘的体系结构 数据仓库 元数据 多维数据库 OLAM 引擎 OLAP 引擎 用户图形界面 API 数据方体 API 数据库 API 数据清理 数据集成 第三层 OLAP/OLAM 第二层 多维数据库 第一层 数据存储 第四层 用户界面 数据的过滤、集成 过滤 数据库 基于约束的数据挖掘 挖掘结果 THE END OF CHAP3 方体的操作 DMQL中的方体定义和计算 define cube sales[item, city, year]: sum(sales_in_dollars) compute cube sales 上述的compute cube子句可以转化为一个类似于SQL的语句 SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year 这个相当于SQL中以下的group by子句 (item, city, year) –3D (item,

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档