《数据仓库技术与联机分析处理》的笔记.docVIP

《数据仓库技术与联机分析处理》的笔记.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据仓库技术与联机分析处理》的笔记

考题形式: 名词解释/填空/计算/简答 数据仓库得基本特征: 面向主题得、集成得、不可更新得,随时间不断变化得。 面向主题 集成的 不可更新的 随时间不断变化的 索引: Tire 结构 Inverted Files:倒排序文件 Suffix trees and suffix arrays:后缀树和后缀数组 Signature Files:签名文件 Dimension :维 Data cube模型: 星型模型 雪花模型 事实群 分布函数 代数型:可以分解成分布函数 Holistic: Olap操作: 切块、切片 旋转 全部实体化 全部不实体化 部分实体化 Ppt中60页的见批注 粒度:数据的不同综合等级. 元数据(meatdata):关于数据的数据. 第一种:从db到db的转换关系 第二种:与终端用户多维模型/之间建立的dss数据. 1.2 粒度 分隔:将数据分散到各自的物理单元中去以便能分别处理. 分片:分隔后的数据 1.3数据仓库的数据组织方式 简单堆积文件:比如按日堆积 轮转综合文件:比如按日做,但是到达月底时,累计成一个月 简化直接文件:间隔一定时间进行快照 连续文件: 两个连续文件的简化直接文件 一个连续文件+一个堆积文件. 1.4数据追加 数据仓库的数据初装完成后,再向数据库添加数据. 2.Melta文件方法 3.前后映象文件 4.日志文件 优点:利用db的固有机制,不用扫描整个db 缺点: 二.数据库体系化环境 名词:再一个企业或者组织内,由各面向应用的oltpdb/以及面向主题的db仓库所组成的完成的数据环境; 分两个部分:操作性环境/分析型环境. 构成: Db与db仓库;软硬件资源和人员的配置的明确规定. 层次的体系化环境: 操作型/全局/部门/个人 数据集市. 数据仓库的体系结构. Molap结构: 采用多维数组存储数据.arbor公司的essbase采用的就是此种结构. Holap:如微软的sqlserver 7.0 特殊的sql服务器 前台工具: 与数据库设计的不同: 1.面向的处理类型不同 面向主题的分析型数据环境 面向的需求不同 系统的设计目标不同 两者的数据来源或者系统的输入不同. 系统的设计方法和步骤不同 操作型的采用sdlc Db仓库:Clds 数据仓库的设计方法: 数据驱动的系统设计方法 数据仓库设计的三级数据模型: 概念模型 逻辑模型 分量:元组中的一个属性组 物理模型: 2.建立数据序列. 3.引入冗余 6.建立广义索引 用来记录具有某些特殊性质的数据 粒度划分 数据分割 考虑的因素: 数据量 数据分析处理的要求 简单易行 粒度划分策略 概念设计: 1/界定系统的边界. 2.确定主要的主题域 A.确定系统边界 技术准备工作: 逻辑模型设计 2.粒度层次划分 5.定义记录系统 物理模型设计 Olap(联机分析处理 93年,e.f.codd提出了olap 基本概念 维:人们观察数据的特定角度 维的层次 多维分析的基本分析动作 切片(slice) 切块 Oltp和olap的关系及比较 Olap的12准则: A多维 B.透明性 C.存取能力 D.稳定的报表性能 E.客户/服务器模式 F.维的等同性准则. G.动态的稀疏矩阵处理准则 H.多用户支持能力 I.非受限的跨维操作 直观的报表展示 灵活的报表处理 不限制维与聚集层次 6.3olap的实施 6.4基于多维数据库的olap实现 多维分析的基础:聚集 5个标准函数:sum,count,max,min,ave 索引: Bitmap索引: Mdsql Mdx(微软推出的) 数据挖掘: .频繁模式(frequent pattern) 应用:购物蓝 关联规则(associative pattern),序列模式(sequential pattern),冰山查询(iceberg cube) 关联规则(associative pattern) 转换成矩阵,0和1,1代表买. 序列模式 自上而下,自下而上.等 Generalized framework Read write 关联规则是发现交易数据库中不同商品直接的规则. 如尿布和啤酒例子. 基本概念: 可信度和支持度 可信度,购买x1,x2,….,xn 的情况下购买y的可能性. 支持度:同时购买x1,x2,….,xn 和y的可能性 如: Abc acd, bcd, ade, bce 支持度:同时出现的次数/所有的数量 可信度: 同时出现的次数/先买a的情况下的次数 Rule support confidence a-d 2/

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档