- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
五邑大学信息学院 何国辉 五邑大学计算机学院 何国辉 数据仓库与数据挖掘 Data Warehouse and Data Mining 数据仓库与数据挖掘 Data Warehouse and Data Mining 第三章 数据仓库中的数据及组织 数据仓库中存储两类数据:业务数据和元数据。 业务数据,分为: 细节数据 综合数据 有关元数据在本章稍后再述 3.1 数据仓库中的数据组织 数据仓库中存储的数据 3.1 数据仓库中的数据组织(续) 后备数据 后备数据 后备数据 高度综合级 轻度综合级 当前细节级 早期细节级 元 数 据 源数据经过抽取、转换后,首先进入当前细节级,再根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级。 老化的数据进入早期细节级。 3.1 数据仓库中的数据组织(续) 数据组织的实例 3.1 数据仓库中的数据组织(续) 数 据 仓 库 层 后备数据 后备数据 后备数据 高度综合级 轻度综合级 当前细节级 早期细节级 2011~2013每“月”电话呼叫情况信息 2011~2013每“天”电话呼叫情况信息 2011~2013每个电话呼叫情况信息 2000~2010电话呼叫明细情况信息 1. 数据粒度 数据粒度是数据仓库的重要概念。存在两种形式, 之一: 粒度是对数据仓库中数据的综合程度高低的一个度量。 粒度越小,细节程度越高,综合程度越低。 在数据仓库中多重粒度是必不可少的。 之二: 样本数据库,其粒度是根据采样率的高低来划分的。 不同的情况组织数据的粒度会不同。 如: 电信通话 细节数据:记录每一次通话情况。 轻度综合数据:记录顾客每天的通话情况。 高度综合数据:记录顾客每月的通话情况。 1. 数据粒度(续) 超市购物 细节数据:记录顾客每一次购物细节。 轻度综合数据:记录每个顾客每次的购物金额,或每种商品每一天的销售数据。 高度综合数据:记录每个顾客每月或每年的购物金额,或每种商品每月或每年的销售数据。 1. 数据粒度(续) 数据粒度与数据量的关系 数据粒度与查询种类的关系 1. 数据粒度(续) 2. 数据分割 数据分割是数据仓库中的另一个重要概念。 它是指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。 数据分割后的数据单元称为分片。 数据分割的标准可以根据实际情况来确定,通常选择:按日期、地域、业务领域等来进行。 一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。 2. 数据分割(续) 数据分割的方法 垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。 水平分割:水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。 2. 数据分割(续) 一个简单的分割例子。 年份 健康保险 生命保险 事故保险 2008 分片1 分片2 分片3 2009 分片4 分片5 分片6 2010 分片7 分片8 分片9 3.2 数据仓库中数据的追加 如何定期向数据仓库中追加数据也是一项十分重要的技术。 当数据仓库的数据初装完成以后,再向数据仓库输入(导入)数据的过程称为数据追加。 如何能够确切地感知究竟哪些数据是在上一次追加过程以后新生成的,这项工作称为变化数据的捕捉。 常用途径: 如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标。 如果数据部含有时标,需要对源数据库的数据模式加以修改,加上时标字段。 1. 时标法 由应用生成的文件,用来记录应用所改变的数据内容。 优点:效率较高,避免了扫描整个数据库。 缺点:需要修改程序代码。 2. DELTA文件 在上次抽取数据库数据到数据仓库之后及本次将抽取数据库数据之前,对数据库分别做一次快照,然后比较两幅快照的不同。 缺点:需要占用大量资源,影响系统性能。 3. 前后快照文件的方法 优点:提取的变化数据只局限于日志文件,不需扫描整个数据库。 4. 日志文件 3.3 数据仓库中的元数据 传统数据库中为了说明数据引入了数据字典的概念。 数据字典是描述数据的数据。 什么是元数据? 3.3.1 元数据的定义 元数据:是用来描述数据的数据。它描述和定位数据组件、它们的来源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。 其主要目标是提供数据资源的全面指南,使得数据仓库管理员和开发人员可以方便地了解数据仓库中有什么数据?数据在什么地方?它们来源于哪里,以及数据仓库系统中是如何利用这些数据?如何管理这些数
文档评论(0)