- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BI技术白皮书
第一章、 数据仓库技术 1
一、 数据仓库的背景和历史 1
二、什么是数据仓库 1
三、 数据仓库的组织结构 2
3.1、数据仓库的逻辑及物理结构 2
3.2、数据仓库系统 2
四、 数据仓库的物理存储形式 3
4.1、基于关系数据库的存储形式 3
4.2、多维数据库存储形式 4
4.3、虚拟存储方式 5
4.4、几种存储形式的比较 5
五、数据集市 5
5.1、 数据集市的产生 5
5.2、 数据集市的概念 5
5.3、 数据集市的特征 5
六、数据抽取、转换、清洗(ETL) 6
6.1、ETL的重要性及概念 6
6.2 ETL阶段的问题 6
第二章、 联机分析技术(OLAP) 8
一、什么是OLAP 8
1.1 、OLAP的起源 8
1.2 、OLAP的概念 8
1.3、OLAP的分类 8
二、OLAP的多维数据结构 9
2.1、OLAP的多维数据数据概念 9
2.2、OLAP的多维数据结构 9
三、OLAP的特点 11
四、OLAP的功能 11
第三章、 数据挖掘技术 12
一、什么是数据挖掘 12
二、数据挖掘的步骤 13
三、数据挖掘的模式 13
四、数据挖掘的方法 14
第四章、各种技术的结合 16
数据仓库技术
数据仓库的背景和历史
随着计算机技术的迅速发展,信息处理技术也得到了长足的发展。计算机系统的功能从数值计算扩展到信息管理距今已有三十多年了,从70年代中期的MIS系统发展到现代的数据仓库(Data Warehouse)技术,用辩证的眼光来看,实际上是信息管理的一种回归,是螺旋式的上升。
二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实现,使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统, SQL的使用更使这一切成为不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。整个80年代直到90年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析——我们把它称之为联机分析处理——比以往任何时候都显得更为重要。
其实,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想像的那么容易:第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第 三,业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。因此有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。
二、什么是数据仓库
数据仓库的概念在90年代初被提出来,以Prism Solutions公司副总裁W.H.Inmon在1990年出版的《建立数据仓库(Building the Data Warehouse)》一书为标志。W. H. Inmon对数据仓库的定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。这也就是说:数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。
主题是数据仓库中数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。
数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库的稳定性是指数据经加工和集成进入数据仓库后是极少或根本不修改的。数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要。
从数据组织的角度来说,数
您可能关注的文档
最近下载
- 委托指导股票买卖协议书范本5篇.docx
- 2024年营养指导员技能竞赛理论知识考试题库500题(含答案).docx
- 酒店消防安全管理制度11.doc VIP
- 程家惠《洋话汉音》(升级版).doc
- 青岛版科学五年级上册第一单元《光》大单元教学设计.docx
- 第4课《古代诗歌四首——天净沙.秋思》说课课件 2024—2025学年统编版语文七年级上册.pptx VIP
- 保健刮痧师保健刮痧师(高级)考点巩固.pdf VIP
- 04大医传承二(1-32讲).doc
- Unit4NaturalDisasters词汇讲解课件高中英语人教版.pptx
- 保健刮痧师《保健刮痧师》高级题库考点(模拟卷).doc VIP
文档评论(0)