1-3 数据仓库的数据组织与数据集市.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1-3 数据仓库的数据组织与数据集市

构建数据集合的驱动方式: “数据驱动”:指根据当前业务数据的基础和质量情况(当前数据库现状),以数据源的分析为出发点,构建数据集合。 “需求驱动(用户驱动)”:根据业务的方向性需求,从业务需要解决的问题出发,构建数据集合。 构建数据仓库的方式: 由于分析型处理的具体特性(种类多,事先不易确定等), William H. Inmon(被称为数据仓库之父)认为构建数据仓库应以数据驱动为主,按第三范式标准组织数据。(对一个表来说,每个非主属性必须完全依赖于该表的主键。) 然后再在数据仓库的基础上开发具体应用。 按数据的作用分类: 管理对象:已经有独立编码或者需要独立编码者。 例如:教学管理中的对象:学生、班级、课程、教师等。 超市管理中的对象:商品、顾客、员工、供应商等。 (1)对象的固有特征数据: 如物料的编号、名称等。 学生的姓名、性别等。 这些数据在对象的生命周期内,比较稳定,一般不会变化。 按数据的作用分类(续): (2)对象的状态数据: 描述对象状态的数据。 如仓库的库存量、图书馆图书是否在馆、商品的售价等。 状态数据在对象的生命周期内不断发生变化。所以,可进一步区分为当前状态数据和历史(周期)状态数据。 1)当前状态数据:描述对象当前状态的数据。如仓库的当前库存量、图书馆图书当前是否在馆、商品的当前售价等。 2)历史(周期)状态数据:描述对象以前某一时刻的状态的数据。如过去某天的库存量、或商品售价。历史状态数据一般也包含“时间戳”。 按数据的作用分类(续): (3)对象的事件数据: 描述对象发生的事件的数据。事件数据一般都有对应的状态数据。事件数据一般会引起状态数据的变化。 如:物料的一次入库、出库数据; 图书的一次出借、归还数据, 商品的一次调价数据。 事件数据一般都包括“时间戳”,用于记录事件发生的时间。 对象:状态(数据)1+事件数据→ 状态(数据)2 例:当前话费50元+又打了一次电话(1元)→话费51元 数据的粒度 数据的粒度指的是数据仓库中保存的数据的细化或综合程度的级别。 例1:电信通话: 细节数据:记录每一次通话情况。 轻度综合数据:记录顾客每天的通话情况。 高度综合数据:记录顾客每月的通话情况。 例2:超市购物: 细节数据:记录顾客每一次的购物细节。 轻度综合数据: 记录每个顾客每次购物金额,或每种商品每一天的销售数据。 高度综合数据:记录每个顾客每月或每年的购物金额。或每种商品每月或每年的销售数据。 数据粒度与数据量的关系: 在数据存储中,数据粒度影响数据量的大小。粒度级越小,数据量越大。粒度级越大,数据量越小。 数据粒度与查询种类的关系: 粒度级越小,回答的查询种类越多。(只要有细节数据,其它数据都可以计算和统计出来) 粒度级越大。回答的查询种类越少。(细节数据无法查询) 数据粒度的存储策略: 时间近的数据以低粒度形式存储。 时间久的数据以高粒度形式存储。 数据库中围绕“管理对象” 存储的主要数据: 1)管理对象的固有特征数据: 固有特征数据在管理对象的生命周期内一般不变。 特别地,该类数据还包括该对象首次进入数据库的时间。该时间可看作是对象所有固定特征数据的“时间戳”。 例如:“学生”的学号、姓名、性别等。入学时间是“时间戳” “商品”的编码、编码、名称、规格等。第一次进店时间是“时间戳” 数据库中围绕“管理对象” 存储的主要数据: 2)管理对象的当前状态数据: 当前状态数据是随时间不断变化的。 例如: “学生”的年龄、年级等。 “商品”的库存量、售价等。 数据库中围绕“管理对象” 存储的主要数据: 3)管理对象短期内的事件数据(细节数据)。

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档