- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第12章 数据仓库与数据挖掘 基本概念数据仓库定义 数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。数据仓库系统的分类 Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。OLAP定义 OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。数据仓库基本特性面向决策主题的 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。集成的 构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。时变的 数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素。非易失的 数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。以读为主的 数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。数据仓库体系结构OLTP数据集市数据源数据仓库地区生产ETL分析总量终端用户财务分析数据分析、DM结算市场外部终端用户分析 数据的映射规则、模型(元数据管理)。。。数据采集及整合数据展现及决策数据仓库项目流程管理及系统性能管理和监控数据仓库的结构高度综合级轻度综合级数据集市元数据当前细节级操作型转换早期细节级 数据仓库中的几个重要概念 ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 Data Mart数据集市 -- 小型的,面向部门或工作组级数据仓库。数据仓库中的几个重要概念 (续) Operation Data Store操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 粒度数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 分割结构相同的数据可以被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。操作数据库与数据仓库的区别操作数据库系统的主要任务是联机事务处理OLTP数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP基本数据模式星型模式产品维表ProductIDProductNameClassIDClassNameCategoryIDCategoryName销售事实表TimeIDProductIDRegionIDSalesQuantity日期维表TimeIDDayMonthYear地区维表RegionDCityProvinceCountry产品维表ProductIDProductNameClassIDClassName类别表ClassIDCategory IDCategoryName日期维表TimeIDdayMonth月表MonthYear地区维表RegionIDCityProvince省份表ProvinceCountry基本数据模式(续1)雪花模式销售事实表TimeIDProductIDRegionIDSalesQuantity基本数据模式(续2)多维模型Cube(D1,D2,…, Dn , M1 , M2 , …, Mm ) 数据仓库的主要应用信息处理支持查询和基本的统计分析,并使用表或图进行报告。分析处理支持基本的OLAP操作,在汇总的和细节的历史数据上操作。数据挖掘 支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果.60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性
文档评论(0)