数据仓库与数据挖掘期末复习.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

弹指落间心已醉,此心能耐几何时!小小萌

PAGE1

1.数据仓库的概念和特点p11

定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。

特性:

面向主题的、集成的、非易失的、随时间不断变化的。

1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。

2、集成的(最重要):数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。

3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。

4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天,数据仓库5-10年。

=2\*GB2⑵操作型环境中的数据库含有数据的“当前值”,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

=3\*GB2⑶操作型环境中的数据键码结构可能含有也可能不含有;数据仓库的键码结构总是包含某时间元素。

2.数据仓库中的关键概念14

外部数据源:就是从系统外部获取的同分析主题相关的数据。

数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。

数据清洗:所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。

数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。

数据加载:是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。

元数据:元数据是关于数据的数据。元数据位于数据仓库的上层,而且能够记录数据仓库中对象的位置。

数据集市:面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。

数据粒度:粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高,粒度级别就越低。相反,细化程度越低,粒度级别就越高。

数据仓库的数据组织结构:

早期细节级(通常用于备用的、批量化的存储)、当前细节级、轻度综合数据级(数据集市)以及高度综合数据级。一旦数据过期,就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级进入高度综合数据级。

数据粒度的两种形式:第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量,另一种形式即样本数据库,是针对数据挖掘的,样本数据库是以一定的采样率(或按数据的重要程度的不同)从细节档案数据或轻度综合数据中抽取的一个子集。

数据分割:分割是指将数据分割到各自的物理单元中以便能分别进行处理,提高数据处理效率,数据分割后形成的数据单元称为分片。

数据库

数据仓库

面向应用

数据是详细

保持当前数据

数据是可更新

对数据的操作是重复的

操作需求是事先可知的

一个操作只存取一条记录

数据非冗余

操作较频繁

所查询的是原始数据

事务处理需要当前数据

鲜有复杂的计算

支持事务处理

面向主题

数据是综合的或提炼的

保存过去的和现在的数据

数据是不可更新

对数据的操作是启发式的

操作需求是临时决定的

一个操作存取一个数据集合

数据常冗余

操作相对不频繁

所查询的是经过加工的数据

决策分析需要过去的和现在的数据

需做复杂的计算

支持决策分析

操作型数据

分析型数据

细节的

在存取瞬间,数据是准确的

可更新的

事先可知操作需求

生命周期符合SDLC(软件开发生命周期)

对性能的要求较高

某一时刻操作一个单元

事务驱动

面向应用

一次操作的数据量较小

支持日常操作

综合的或提炼的

历史数据

不可更新

操作需求事先不可知

完全不同的生命周期

对性能的要求较为宽松

某一时刻操作一个集合

分析驱动

面向分析

一次操作的数据量较大

支持管理需求

4.数据仓库的数据追加与方法

数据追加:数据仓库中的数据初装完成后,再向数据仓库输入数据的过程。

数据仓库的内容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化的数据。

捕捉变化数据的常用途径如下:

(1)时标方法:

如果数据含有时标,对于插入或更新的数据记录,在记录中设置相应的时标,那么只需根据时标判断哪些数据

文档评论(0)

idowen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档