- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第5章数据仓库与数据挖掘的决策支持
5.1数据仓库的基本原理5.1.1数据仓库概念5.1.2数据仓库结构5.1.3数据集市5.1.4元数据
01在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。025.1.1数据仓库的概念
数据仓库的概念SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。
数据仓库的概念传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。12
操作型数据(DB数据)与01分析型数据(DW数据)之间的差别为:02
例如,银行的数据仓库的主题:客户02从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。04主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。01DW的客户数据来源:03在DW中分析客户数据,可决定是否继续给予贷款05(1)数据仓库是面向主题的2、数据仓库特点
数据进入数据仓库之前,必须经过加工与集成对不同的数据来源进行统一数据结构和编码统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。总之,将原始数据结构做一个从面向应用到面向主题的大转变。(2)数据仓库是集成的2、数据仓库特点
数据仓库特点12数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(3)数据仓库是稳定的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。数据库只包含当前数据,即存取某一时间的正确的有效的数据。(4)数据仓库是随时间变化的
01大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)(5)数据仓库的数据量大.02需要一个巨大的硬件平台需要一个并行的数据库系统.最好的数据仓库是大的和昂贵的。(6)数据仓库的硬件要求较高2、数据仓库特点
近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。32145.1.2数据仓库结构
5.1.2数据仓库结构元数据:整个数据仓库的组织结构由元数据组织,它不包含数据仓库中的实际数据信息。作用:(1)定位数据仓库的目录内容(2)数据从业务环境向数据仓库环境传递时数据仓库的目录内容(3)指导从当前基本数据到轻度综合数据到高度综合数据的综合算法的选择。组成:(1)数据结构(2)用于综合的算法(3)从业务环境到DW规划
数据仓库结构图
数据集市的产生数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。数据集市(DataMart)
数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。1数据集市是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案22.数据集市概念
040301数据集市不等于数据仓库,多个数据集市简单合并起来不能成为数据仓库。同一个问题在不同的数据集市的查询结果可能不一致,甚至互相矛盾。各数据集市之间对详细数据和历史数据的存储存在大量冗余。各数据集市之间以及与源数据库系统之间难以管理。023.数据集市与数据仓库的关系
4.数据集市的特性1、规模小2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集11、可升级到完整的数据仓库
5.两种数据集市结构从属数据集市(DependentDataMart)从属:数据直接来自中央数据库,能够保持数据的一致性。关键业务部门建立从属的数据集市,可以很好的查询反应速度。
独立数据集市(IndependentDataMart)独立:数据直接来自各生产系
文档评论(0)