数据仓库与数据挖掘 数据库新技术 教学ppt课件.ppt

数据仓库与数据挖掘 数据库新技术 教学ppt课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 数据库新技术 教学ppt课件

第5章 数据仓库与数据挖掘;第5章 数据仓库与数据挖掘;5.1 数据集成;基于中间件的数据集成模型 ;数据;面向主题的 集成的 不可修改的 随时间不断变化的 支持管理层决策 低范式,数据冗余;数据库方式;数据仓库; Data Warehousing;Data Warehousing;操作型数据;主题(Subject):特定的数据分析领域与目标。 面向主题:为特定的数据分析领域提供数据支持。 为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。;数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。 例1:一个面向事务处理的“商场”数据库系统,其数据模式如下:;采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期);库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话);上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。 如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。;商品固有信息:商品号,商品名,类别,颜色等 商品采购信息:商品号,供应商号,供应价,供应日期,供应量等 商品销售信息:商品号,顾客号,售价,销售日期,销售量等 商品库存信息:商品号,库房号,库存量,日期等;供应商固有信息:供应商号,供应商名,地址,电话等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等;顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等 顾客购物信息:顾客号,商品号,售价,购买日期,购买量等;在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。 不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。;每个主题所需数据的物理存储:;数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。 集成的方法:;例如:水情数据仓库;数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,供企业决策分析之用,执行的主要是‘查询’操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。 数据仓库的数据有时需要‘更新’操作。 在需要进行新的分析决策时,可能需要进行新的数据抽取和‘更新’操作 数据仓库中的一些过时的数据,也可以通过‘删除’操作丢弃掉 数据仓库的存储管理相对于DBMS简单得多。;数据仓库中的数据必须以一定时间段为单位进行统一更新。;4. 数据仓库的四大特色;数据仓库结构图 ;5 数据仓库系统的系统结构;数据仓库系统的系统结构;数据仓库系统的系统结构;常见的概念模型—星形 ;常见的概念模型—雪花模型;多数据源 数据仓库的数据来源于多个数据源。 不同格式的数据:由于企业在长期事务处理过程中随数据库管理系统本身发展,形成了企业内从简单到复杂、从小型到大型的各种,其中有大型关系数据库、对象数据库、桌面数据库、各种非格式化的数据文件等。 不同的数据操作平台 不同的物理位置 数据源可以是递归的 数据仓库的数据源可以是另外一个数据仓库(或数据集市)或OLAP服务器。;数据仓库中的数据 数据仓库为企业管理人员的分析、决策操作提供统一、集成的基础数据,包括: 企业内部各部门当前及其历史上的细节性业务数据 为了进行分析决策操作而生成的分析型数据 对数据仓库中数据的管理 数据仓库中的数据是一个统一、集成、单一的庞大数据集合,需要借助成熟的数据库技术对其进行存储

您可能关注的文档

文档评论(0)

dajia1qi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档