《数据仓库技术与联机分析处理》的笔记.docVIP

下载本文档

1
0
约1.04万字
约 18页
2017-09-05 发布于重庆
举报
版权申诉

《数据仓库技术与联机分析处理》的笔记.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据仓库技术与联机分析处理》的笔记

考题形式: 名词解释/填空/计算/简答数据仓库得基本特征：面向主题得、集成得、不可更新得，随时间不断变化得。面向主题集成的不可更新的随时间不断变化的索引： Tire 结构 Inverted Files：倒排序文件 Suffix trees and suffix arrays:后缀树和后缀数组 Signature Files：签名文件 Dimension ：维 Data cube模型：星型模型雪花模型事实群分布函数代数型：可以分解成分布函数 Holistic： Olap操作：切块、切片旋转全部实体化全部不实体化部分实体化 Ppt中60页的见批注粒度:数据的不同综合等级. 元数据(meatdata):关于数据的数据. 第一种:从db到db的转换关系第二种:与终端用户多维模型/之间建立的dss数据. 1.2 粒度分隔:将数据分散到各自的物理单元中去以便能分别处理. 分片:分隔后的数据 1.3数据仓库的数据组织方式简单堆积文件:比如按日堆积轮转综合文件:比如按日做,但是到达月底时,累计成一个月简化直接文件:间隔一定时间进行快照连续文件: 两个连续文件的简化直接文件一个连续文件+一个堆积文件. 1.4数据追加数据仓库的数据初装完成后,再向数据库添加数据. 2.Melta文件方法 3.前后映象文件 4.日志文件优点:利用db的固有机制,不用扫描整个db 缺点: 二.数据库体系化环境名词:再一个企业或者组织内,由各面向应用的oltpdb/以及面向主题的db仓库所组成的完成的数据环境; 分两个部分:操作性环境/分析型环境. 构成: Db与db仓库;软硬件资源和人员的配置的明确规定. 层次的体系化环境: 操作型/全局/部门/个人数据集市. 数据仓库的体系结构. Molap结构: 采用多维数组存储数据.arbor公司的essbase采用的就是此种结构. Holap:如微软的sqlserver 7.0 特殊的sql服务器前台工具: 与数据库设计的不同: 1.面向的处理类型不同面向主题的分析型数据环境面向的需求不同系统的设计目标不同两者的数据来源或者系统的输入不同. 系统的设计方法和步骤不同操作型的采用sdlc Db仓库:Clds 数据仓库的设计方法: 数据驱动的系统设计方法数据仓库设计的三级数据模型: 概念模型逻辑模型分量:元组中的一个属性组物理模型: 2.建立数据序列. 3.引入冗余 6.建立广义索引用来记录具有某些特殊性质的数据粒度划分数据分割考虑的因素: 数据量数据分析处理的要求简单易行粒度划分策略概念设计: 1/界定系统的边界. 2.确定主要的主题域 A.确定系统边界技术准备工作: 逻辑模型设计 2.粒度层次划分 5.定义记录系统物理模型设计 Olap(联机分析处理 93年,e.f.codd提出了olap 基本概念维:人们观察数据的特定角度维的层次多维分析的基本分析动作切片(slice) 切块 Oltp和olap的关系及比较 Olap的12准则: A多维 B.透明性 C.存取能力 D.稳定的报表性能 E.客户/服务器模式 F.维的等同性准则. G.动态的稀疏矩阵处理准则 H.多用户支持能力 I.非受限的跨维操作直观的报表展示灵活的报表处理不限制维与聚集层次 6.3olap的实施 6.4基于多维数据库的olap实现多维分析的基础:聚集 5个标准函数:sum,count,max,min,ave 索引: Bitmap索引: Mdsql Mdx(微软推出的) 数据挖掘: .频繁模式(frequent pattern) 应用:购物蓝关联规则(associative pattern),序列模式(sequential pattern),冰山查询(iceberg cube) 关联规则(associative pattern) 转换成矩阵,0和1,1代表买. 序列模式自上而下,自下而上.等 Generalized framework Read write 关联规则是发现交易数据库中不同商品直接的规则. 如尿布和啤酒例子. 基本概念: 可信度和支持度可信度,购买x1,x2,….,xn 的情况下购买y的可能性. 支持度:同时购买x1,x2,….,xn 和y的可能性如: Abc acd, bcd, ade, bce 支持度:同时出现的次数/所有的数量可信度: 同时出现的次数/先买a的情况下的次数 Rule support confidence a-d 2/