第1章数据仓库的概念与体系结构陈志泊.pptVIP

第1章数据仓库的概念与体系结构陈志泊.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章数据仓库的概念与体系结构陈志泊

数据仓库与数据挖掘 数据仓库与数据挖掘 教材 《数据仓库与数据挖掘》 陈志泊 主编 2009年5月第一版 清华大学出版社 参考书籍 数据挖掘—概念与技术(第3版), Jiawei Han, Micheline Kamber, Jian Pei 著,机械工业出版社,2012 数据挖掘原理,David Hand, Heikki Mannila, Padhraic Smyth 著,机械工业出版社,2005 实验作业上交地址 用户名:stq 密 码:无 第1章 数据仓库的概念与体系结构 如何处理历史数据? 删除已经失效的历史数据。 先对历史数据作介质备份,然后删除,以防万一需要查看。 建立一个数据仓库系统,通过建立分析模型,从中挖掘出符合规律的知识并用于未来的预测与决策中。 1.1 数据仓库的概念、特点与组成 数据仓库(data warehouse)通常指一个数据库环境,而不是指一件产品,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。 1.1 数据仓库的概念、特点与组成 数据仓库的概念 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受: 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持(DDS)。 数据仓库是面向主题的(Subject-Oriented) 数据仓库的数据是以分析主题为中心来组织的。主题是一个抽象的概念,是企业决策分析所涉及的分析对象。按照面向主题的方式进行数据组织时,首先确定主题,然后根据主题,确定相应的数据内容。 例如,若企业决策人员预分析客户的财务信息,则需要把关于客户的各种财务信息综合在“Customer Financial ”这一主题中。 数据仓库是集成的(Integrated) 数据仓库的数据来自于多个不同的数据源。 多个数据源经常是异种或异构的,存在数据重复和语义不一致问题 不是对这些数据源中某些数据的复制,而是对这些数据源中数据的进一步抽象。 它需要按照统一的结构、一致的格式、一致的度量单位、一致的语义,从不同的数据源提取数据并进行清洗、转换、综合、抽象,最后集成为面向主题的数据集合,确保数据的综合性、宏观性和一致性。 数据仓库是反映历史变化的(Time-Variant) 数据仓库中的数据是历史数据,应该随时间的延长不断增加新的数据内容。(周期性更新) 数据仓库中的数据是综合数据,这些综合数据一般都与时间有关,如按照时间段进行综合的数据。这些综合数据要随着时间的延长而不断地变化。 数据仓库是相对稳定的(Non-Volatile) 数据仓库的数据主要供企业决策分析之用,很少进行修改,所涉及的数据操作主要有两类: 数据加载 数据查询和联机分析 数据仓库的数据一般都是历史数据,是对多个不同数据源进行统计、综合和重组后导出的数据。只要数据源中与数据仓库相关的数据不发生改变,数据仓库中的数据就不应该被改变。 一般来说,无需事务管理、并发控制与恢复等机制 1.1 数据仓库的概念、特点与组成 数据仓库的特点: 面向主题; 集成的; 相对稳定的; 反映历史变化。 1.1 数据仓库的概念、特点与组成 数据仓库的组成: 数据仓库数据库; 数据抽取工具; 元数据:技术元数据与业务元数据; 访问工具; 数据集市(Data Marts); 数据仓库管理; 信息发布系统。 数据仓库与数据库的区别    数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。 补充:1.知识发现数据挖掘的引入 数据到知识:数据是原材料,它只描述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和联系,这就形成了所谓的信息。信息虽然给出了数据中一些有一定意义的东西,但是它往往和人们所要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,才能获得

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档