- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章数据仓库开发模型1.3
适当划分粒度的第一步是估算数据仓库中将来使用的数据行数和所需的直接存取存储设备数(DASD)。 在计算出数据仓库所需要占用的存储空间以后,需要根据所需要的存储空间大小确定是否划分粒度,如果需要划分,又应该怎样划分。 2.6 数据仓库的粒度和聚集模型 在数据仓库中确定粒度时,需要考虑这样一些因素:要接受的分析类型、可接受的数据最低粒度、能够存储的数据量。 计划在数据仓库中进行的分析类型将直接影响数据仓库的粒度划分。 数据仓库通常在同一模式中使用多重粒度。 2.6.1 数据粒度的划分 定义数据仓库粒度的另外一个要素是数据仓库可以使用多种存储介质的空间量。 选择合适的粒度是数据仓库设计过程中所要解决的一个复杂的问题,因为粒度的确定实质上是对业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。 还有一种可以大幅降低数据仓库容量的方法,就是只采用概括数据。 2.6.2 数据粒度的级别 数据仓库与数据挖掘技术(第2版) 第二章 数据仓库开发模型 参考课件: /topics/76424/ / 2.1 数据仓库的开发模型 张三 客户 客户与产品 特性 个体 整体 整体间联系 属性 实体 同质实体 异质实体 列(字段、数据项) 记录 表文件 数据库 信用 现实世界是存在于现实之中的各种客观事物。 概念世界是现实情况在人们头脑中的反应。 逻辑世界是人们为为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。 计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。 图2.1 现实与不同模型的变化联系 元数据模型 数据粒度模型和聚集模型 图2.2 数据模型关系图 数据仓库的设计是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。 元数据模型作为数据仓库的灵魂自始自终伴随着数据仓库的开发、实施与使用。 数据粒度模型和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。 2.2 数据仓库的概念模型 数据仓库模型的概念:数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本,以此为工具来确认数据仓库的设计者是否已经正确的了解数据仓库最终用户的信息需求。 2.2.1 数据仓库概念模型 在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的企业数据模型——ER图(ERD)。这是一种描述组织业务概况的蓝图,包括整个组织系统中各个部门的业务处理及其业务处理数据。 数据仓库与操作型数据库一样,也存在高层模型(ERD,实体关系层)、中层模型(DIS,逻辑层)和低层模型(物理层)3个层次数据模型。 图2.3 企业数据模型 财务部门 销售收入帐 应收帐 应付帐 成本帐 销售部门 销售计划 销售合同 销售统计 人事部门 员工业绩记录 员工技能情况 员工薪酬表 财务 人事 销售 ……. …….. ….. 企业数据模型 在实际设计中用于数据仓库设计的概念模型与业务数据处理系统的三级数据模型仍然具有一定的差距。 1.数据类型的差距:数据仓库的概念模型只包含用户所感兴趣的分析数据、描述数据和细节数据。 2.数据的历史变迁性:数据仓库的概念模型扩充了关键字结构,增加了事件属性并作为关键字的一部分。 3.数据的概括性:数据仓库的概念模型中还增加了一些基本数据所导出的衍生数据用于管理决策分析,这些在业务处理系统中是不存在的。 由于传统的实体关系图无法表述数据仓库中所需要的用户所感兴趣的分析数据、描述数据和细节数据的关系,因此将ERD中的实体分成指标实体(事实实体)、维实体和详细类别实体(引用实体)。 指标实体处于概念模型的中心,是数据仓库活动的中心。往往最后形成数据仓库中的实体-事实表。在现实世界中则是业务处理或者某一事件(例如,销售、服务等)。 指标实体 维度表 维实体在数据仓库中主要用于对实体指标的过滤和重新组织提供指导。 详细类别表 详细类别实体在数据仓库中也用物理数据库表示,通常与现实世界中的某一个实体相对应。 实例:P95、P96 2.2.2 规范的数据模型 数据仓库的数据 普通数据库系统的数据 长期的框架 短期的框架 静态 快速变化 数据通常是汇总的 记录级的访问 特殊查询访问 标准查询访问 定期更新 实时更新 数据驱动 事件驱动 表2-1 数据仓库的数据与普通的数据库系统的数据之间的对比 ER数据模型作为一种数据仓库的设计基础,在实际应用中存在很多缺点。 实际应用中,数据仓库的实体绝不会是对等的。 星型数据模型是最常用的数据仓库结构模式。 2.2.3 星型模型 产品 供应商 订
您可能关注的文档
最近下载
- GB4053-2009固定式钢梯及平台安全要求.pdf VIP
- 预应力管桩施工监理实施细则.docx
- JJF(鄂) 154-2025 无矩线圈校准规范.docx VIP
- DB13(J)T 278-2018 城市地下空间暨人民防空工程综合利用规划编制导则.pdf VIP
- 四年级语文上册句子专项练习及答案.pdf VIP
- 辅导员年终工作总结PPT.pptx VIP
- DB13(J)T 8323-2019 被动式超低能耗建筑评价标准.pdf VIP
- (苏科2024版)信息科技四年级4.3 可靠的信息传输 课件(新教材).pptx VIP
- 侵入性手术相关医院感染的预防.docx VIP
- DB13(J)T 8344-2020 扇形槽保温复合板应用技术规程.pdf VIP
原创力文档


文档评论(0)