- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与联机分析
第2章 数据仓库与联机分析
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH,是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。联机分析处理(OLAP)系统是数据仓库系统最主要的应用数据仓库由数据仓库之父比尔恩门(Bill Inmon)于1990年提出数据仓库主要功能是资讯系统联机事务处理(OLTP)累积的大量资料,数据仓库理论所特有的资料架构,系统的分析整理分析方法联机分析处理(OLAP)、数据挖掘(Data Mining),进而决策支持系统(DSS)、主管资讯系统(EIS)创建,帮助决策者快速有效大量分析出价值的,决策拟定快速外在环境变动,帮助建构商业智能(BI)。
数据仓库之父比尔恩门在1991年出版的Building the Data Warehouse(《建立数据仓库》见图)一书中所提出的定义被广泛接受数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
对于传统数据库与数据仓库的关系,可以从两个方面来理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。由普通数据库与数据仓库的对比关系来看,通常把普通数据库技术称为传统意义上的数据库技术,其数据处理模式可被划分为操作型处理和分析型处理(或信息型处理)。普通数据库技术能够完成企业的日常事务处理工作,但很难满足实现决策者制定规划的要求,也无法满足数据多样化处理的要求。随着用户需求的日益扩大,分析型处理和操作型处理的分离逐渐成为必然。
图2.1 《建立数据仓库》
当前数据仓库和联机分析处理的主要研究领域有以下几方面。
(1) 数据仓库的建模与设计。
(2) 数据仓库的体系结构。
(3) 数据清洁和装载。
(4) 数据刷新和净化。
(5) 对关系操作符的扩充。
(6) 操作符的有效开发。
(7) 专门的索引技术。
(8) 查询优化。
2. 数据仓库的特点
数据仓库并不是所谓的大型数据库。数据仓库方案建设的目的,是为前端查询和分析基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为应用服务,数据仓库往往有如下几特点
1) 效率高数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,以日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,。
2数据质量数据仓库提供各种信息,要的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗装载查询展现等,架构复杂层次众多,数据源有脏数据或者代码不严谨,导致数据失真,如果客户看到错误的信息就可能分析得出错误的决策,造成损失。
3) 扩展性有的大型数据仓库系统的架构设计之所以很复杂,是因为考虑到未来35年扩展性,稳定运行而无花费太多的精力去重建。主要体现在数据建模的合理性,可在数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量。数据仓库技术可以将企业多年积累的海量数据唤醒,不仅能为企业管理好这些数据,挖掘数据潜在的价值,从而成为企业运营维护系统的亮点之一。4) 面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象的概念,是对于在较高层次上将企业信息系统中的数据进行综合、归类并分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。数据仓库的关键技术
1) 数据提取数据提取过程是数据进入仓库的入口。为了和系统各自的执行效率,数据仓库绝大多数都需要一个独立于联机事务处理系统的数据环境。抽取过程涉及的数据源一般包括联机事务处理系统的数据、外部数据源、脱机的数据存储介质等,数据提取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据不需要实时响应,因此数据提取可以定时进行,但多个提取操作执行的时间、互相的顺序、成败对于数据仓库中信息的有效性则至关重要。数据提取过程涉及数据格式的转换,理想情况是用户选定源数据和目标数据的对应关系、格式及类型,会自动生成数据抽取的代码。但是,目前市场上提供的大多数提取工具支持的数据类型有限,难以动
文档评论(0)