- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据仓库技术与联机分析处理》的笔记
考题形式:
名词解释/填空/计算/简答
数据仓库得基本特征:
面向主题得、集成得、不可更新得,随时间不断变化得。
面向主题
集成的
不可更新的
随时间不断变化的
索引:
Tire 结构
Inverted Files:倒排序文件
Suffix trees and suffix arrays:后缀树和后缀数组
Signature Files:签名文件
Dimension :维
Data cube模型:
星型模型
雪花模型
事实群
分布函数
代数型:可以分解成分布函数
Holistic:
Olap操作:
切块、切片
旋转
全部实体化
全部不实体化
部分实体化
Ppt中60页的见批注
粒度:数据的不同综合等级.
元数据(meatdata):关于数据的数据.
第一种:从db到db的转换关系
第二种:与终端用户多维模型/之间建立的dss数据.
1.2 粒度
分隔:将数据分散到各自的物理单元中去以便能分别处理.
分片:分隔后的数据
1.3数据仓库的数据组织方式
简单堆积文件:比如按日堆积
轮转综合文件:比如按日做,但是到达月底时,累计成一个月
简化直接文件:间隔一定时间进行快照
连续文件:
两个连续文件的简化直接文件
一个连续文件+一个堆积文件.
1.4数据追加
数据仓库的数据初装完成后,再向数据库添加数据.
2.Melta文件方法
3.前后映象文件
4.日志文件
优点:利用db的固有机制,不用扫描整个db
缺点:
二.数据库体系化环境
名词:再一个企业或者组织内,由各面向应用的oltpdb/以及面向主题的db仓库所组成的完成的数据环境;
分两个部分:操作性环境/分析型环境.
构成:
Db与db仓库;软硬件资源和人员的配置的明确规定.
层次的体系化环境:
操作型/全局/部门/个人
数据集市.
数据仓库的体系结构.
Molap结构:
采用多维数组存储数据.arbor公司的essbase采用的就是此种结构.
Holap:如微软的sqlserver 7.0
特殊的sql服务器
前台工具:
与数据库设计的不同:
1.面向的处理类型不同
面向主题的分析型数据环境
面向的需求不同
系统的设计目标不同
两者的数据来源或者系统的输入不同.
系统的设计方法和步骤不同
操作型的采用sdlc
Db仓库:Clds
数据仓库的设计方法:
数据驱动的系统设计方法
数据仓库设计的三级数据模型:
概念模型
逻辑模型
分量:元组中的一个属性组
物理模型:
2.建立数据序列.
3.引入冗余
6.建立广义索引
用来记录具有某些特殊性质的数据
粒度划分
数据分割
考虑的因素:
数据量
数据分析处理的要求
简单易行
粒度划分策略
概念设计:
1/界定系统的边界.
2.确定主要的主题域
A.确定系统边界
技术准备工作:
逻辑模型设计
2.粒度层次划分
5.定义记录系统
物理模型设计
Olap(联机分析处理
93年,e.f.codd提出了olap
基本概念
维:人们观察数据的特定角度
维的层次
多维分析的基本分析动作
切片(slice)
切块
Oltp和olap的关系及比较
Olap的12准则:
A多维
B.透明性
C.存取能力
D.稳定的报表性能
E.客户/服务器模式
F.维的等同性准则.
G.动态的稀疏矩阵处理准则
H.多用户支持能力
I.非受限的跨维操作
直观的报表展示
灵活的报表处理
不限制维与聚集层次
6.3olap的实施
6.4基于多维数据库的olap实现
多维分析的基础:聚集
5个标准函数:sum,count,max,min,ave
索引:
Bitmap索引:
Mdsql
Mdx(微软推出的)
数据挖掘:
.频繁模式(frequent pattern)
应用:购物蓝
关联规则(associative pattern),序列模式(sequential pattern),冰山查询(iceberg cube)
关联规则(associative pattern)
转换成矩阵,0和1,1代表买.
序列模式
自上而下,自下而上.等
Generalized framework
Read write
关联规则是发现交易数据库中不同商品直接的规则.
如尿布和啤酒例子.
基本概念:
可信度和支持度
可信度,购买x1,x2,….,xn 的情况下购买y的可能性.
支持度:同时购买x1,x2,….,xn 和y的可能性
如:
Abc acd, bcd, ade, bce
支持度:同时出现的次数/所有的数量
可信度: 同时出现的次数/先买a的情况下的次数
Rule support confidence
a-d 2/
文档评论(0)