- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概论第三章数据仓库3.1 前言作用:对经过集成、清洗、归约预处理后的数据进行存储的载体—数据仓库(DW)。企业历史数据的主要处理方式:删除历史数据备份历史数据预处理后存入数据仓库基于数据仓库的应用:OLAP(Online Analysis Process)--联机分析处理、多粒度和多维度的数据分析、OLAM(Online Analysis Mining)。3.2 数据库基本概念回顾(1) 数据库简介数据:数据库中存储的基本对象,以描述事物的符号记录。数据库:以一种结构化的方式存储数据的文件系统。特点:较小冗余度,较高独立性和易扩展性,可被多用户并发访问,可长期存储。(2) 数据库、表、记录和域及其关系二维表实例:(P38图3.1的实例)。(3) 数据库管理系统—DBMSDBMS的功能:提供定义、建立、维护数据库服务的核心软件。其目的是保证数据库的安全、一致性和完整性。注意:常见的DBMS有DB2、Oracle、MS SQL Server、MySQL和MS Access等。还有曾经辉煌的FOX、FOXPRO、Sybase、Informix等著名的DBMS系统及其形成的历史数据资源。DBMS的主要功能:数据存储、检索和更新:完成存储、查询、修改、删除等操作。事务支持:对数据库的一系列操作作为整体执行。注意:一个事务具有原子性、一致性、隔离性和持久性特点。(P39)原子性:多个对数据库的操作可以看做是一个不可分割的原子操作。一致性:数据库状态从一个状态到另一个状态的转变时是一致性转变的。隔离性:不同事务的操作之间是互不影响的。持久性:事务对数据库的影响和改变是永久性的。并发控制:多个事务并发执行(读取或修改同一数据或文件)。3.3 数据仓库简介数据仓库的特点William H. Inmon定义:DW是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理部门的决策过程。面向主题(Subject-Oriented):DW总是围绕重要的课题或主题展开,如顾客、产品、销售等。总着眼于决策者的数学建模和分析处理,而不是简单的日常操作与事务处理。针对特定主题提供简明扼要的有价值的数据进行呈现。集成(Integrated):DW的建立是通过集成和整合多个不同的异构数据源完成。注意:异构数据源包含关系型数据库、一般数据文件、联机事务记录等。DW的建立需要经过数据清洗和数据集成技术的支撑。以保证命名规则、编码结构、属性值的度量等方面保持一致。时变的(Time Variant):早时间层面上,DW中的数据的事件跨度要长于操作性数据库中的数据。有的跨度超过若干年。DW中的数据结构一般都包含了时间元素。非易失的(Non-Volatile):DW中的数据一般都在物理上分开存储。DW中一般没有数据更新和修改操作发生。数据仓库概念数据仓库之父的定义:比尔.恩门—数据仓库是一个把不同来源数据进行集成,为用户提供决策和分析的平台,同时提供用户对信处理的支持的数据库系统。数据仓库的作用提高客户关注度—购买模式和喜好倾向的获得微调生产策略—最大限度地提高利润查找利润来源—指导产品的生产和销售管理客户关系—对公司管理和运行进行指导数据仓库与DBMS对比OLTP(On-Line Transaction Processing)与OLAP(On-Line Analytical Processing)。OLTP包含大部分日常操作;OLAP数据分析与决策处理。OLTP与OLAP的主要区别。处理对象不同。OLTP—面向顾客,提供事务处理和查询处理;OLAP—面向市场,为数据分析人员提供数据分析支持。数据内容不同。OLTP—处理的是日常琐碎数据;OLAP—处理的是历史数据,尤其是集成统一的数据。数据库的设计模式不同。OLTP—按照“实体-关系”模型设计面向应用的数据库;OLAP—采用星型模式和面向主题的数据设计。视图不同。OLTP—关注当前和本地数据,不关心历史数据;OLAP—关注数据的不同演绎和不同数据源集成而来的数据信息。访问模式不同。OLTP—包括数据更新、查询操作;OLAP—一般是只读操作,且查询的都是复杂的操作。OLTP与OLAP的其他区别(见P42表3.1)分离数据仓库的原因提高性能—DBMS主要用于OLTP;而DW的复杂查询、多位视图、数据集成用DW更高效。功能和数据的不同—决策支持需要历史数据,事务型数据库不维护历史数据!注意:目前,随着数据库技术的发展OLTP和OLAP的差异越来越小!3.4 多维数据模型数据立方体目的:从多维角度对数据进行观察和建模。假设:以一个电子产品销售数据仓库为例。维表和事实表维:分析和看待数据对象的角度,一般以属性来表示之。维表:与每一个维度相关的表,表中是一系列属性的集合。例如,商品名称维维表、商品品牌维维表、商品类型维维
文档评论(0)