数据仓库实例(dw).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库 (三) 第一页,共四十二页。 数据仓库设计大致有如下几个步骤: 2.6 数据仓库的设计 明确主题 概念设计 技术准备 逻辑设计 物理设计 数据仓库生成 数据仓库的运行与维护 第二页,共四十二页。 针对每一个选定的当前实施的主题 概念模型设计 逻辑模型设计 物理模型设计 数据仓库生成 数据仓库运行与维护 2.6 数据仓库的设计 第三页,共四十二页。 2.6 数据仓库的设计 确定系统边界 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含哪些数据源? 概念模型设计 确定系统边界 确定主要的主题及其内容 OLAP设计 第四页,共四十二页。 2.6 数据仓库的设计 确定主要的主题 即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括: 确定主题及其属性信息 描述每个属性的取值情况 固定不变的 半固定的 经常变化的 确定主题的公共码键 主题间的关系:主题间联系及其属性 在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如: 第五页,共四十二页。 2.6 数据仓库的设计 主题名 公共码键 属性信息 商品 商品号 固有信息:商品号,商品名,类别,颜色等 采购信息:商品号,供应商号,供应价,供应日期,供应量等 销售信息:商品号,顾客号,售价,销售日期,销售量等 库存信息:商品号,库房号,库存量,日期等 供应商 供应商号 固有信息:供应商号,供应商名,地址,电话,供应商类型等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等 顾客 顾客号 固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等 购物信息:顾客号,商品号,售价,购买日期,购买量等 第六页,共四十二页。 2.6 数据仓库的设计 供应商固有信息 供应商 供应商品信息 日期 供应商号 顾客固有信息 顾客号 顾客 日期 顾客购物信息 商品采购信息 商品销售信息 商品 商品号 日期 商品固有信息 商品库存信息 商品、顾客和供应商之间的E-R图 第七页,共四十二页。 2.6 数据仓库的设计 逻辑模型设计 将E-R图转换成关系数据库的二维表 定义数据源和数据抽取规则 在逻辑模型的设计过程中,需要考虑以下一些问题: 适当的粒度划分 合理的数据分割策略 定义合适的数据来源等 第八页,共四十二页。 2.6 数据仓库的设计 逻辑模型设计 – 粒度划分 在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。 数据越详细,粒度越小,级别就越低 数据综合度越高,粒度越大,级别就越高。 一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法。例如: 根据时间跨度进行的统计有:天,周,月,季度,年 对于不适合进行统计的属性值,可以采样获取数据 粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。 第九页,共四十二页。 2.6 数据仓库的设计 商品固有信息: 商品表(商品号,商品名,类型,颜色,…)/* 细节数据 */ 商品采购信息: 采购表1(商品号,供应商号,供应日期,供应价,…)/* 细节数据 */ 采购表2(商品号,时间段1,采购总量,…)/* 综合数据 */ …… 采购表n(商品号,时间段n,采购总量,…) 商品销售信息: 销售表1(商品号,顾客号,销售日期,售价,销售量,…)/* 细节数据 */ 销售表2(商品号,时间段1,销售总量,…)/* 综合数据 */ …… 销售表n(商品号,时间段n,销售总量,…) 商品库存信息: 库存表1(商品号,库房号,库存量,日期,…)/* 细节数据 */ 库存表2(商品号,库房号,库存量,星期,…)/* 样本数据 */ …… 库存表n(商品号,库房号,库存量,年份,…) 其它导出数据:…… 第十页,共四十二页。 2.6 数据仓库的设计 逻辑模型设计 – 数据分割 数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。 选择数据分割的因素有: 数据量的大小 数据分析处理的对象(主题) 简单易行的数据分割标准 数据粒度的划分策略 通常采用‘时间’属性作为数据分割的依据 数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。 第十一页,共四十二页。 2.6 数据仓库的设计 逻辑模型设计 – 定义数据来源及其抽取规则 定义数据仓库中数据的来源,以及数据的抽取规则,例如: 主题名 属性名 数据源系统 源表名 源属性名 商品 商品号 库存子系统 商品 商

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档