[工学]软件项目管理2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工学]软件项目管理2

2.1 数据仓库结构体系 2.2 数据仓库的数据模型 2.3数据抽取、转换和装载 2.4 元数据 2.1 数据仓库结构体系 2.1.1 数据仓库结构 2.1.2数据集市及其结构 2.1.3 数据仓库系统结构 2.1.4 数据仓库运行结构 数据仓库是企业级的,数据集市是部门级的。 1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。 提供更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。 3.数据集市与数据仓库差别 (1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。 (2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。 (3)数据集市的数据组织一般采用星型模型。 大型数据仓库的数据组织,如NCR公司采用第三范式。 1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、更详细的、预先存在的数据仓库的摘要子集 10、可升级到完整的数据仓库 从属数据集市(Dependent Data Mart):它的数据直接来源于中央数据仓库。这种结构仍能保持数据的一致性。 独立数据集市(Independent Data Mart):数据直接来源于各生产系统。 2.1.2 数据仓库系统结构 数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。 数据仓库的数据来源于多个数据源 (2)数据抽取、转换、装载 数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。 数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。 (1)查询工具 数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。 (2)多维分析工具(OLAP工具): 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。 (3)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。 维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。 每一个销售事实由一个特定的商店、一个特定的时间、一个特定的商品组成。 两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。 大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。 “事实表”中存放大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。 星型模型数据如下图: 星型模型优点:非常规范化,以增加存储空间为代价,提高了多维数据的查询速度。而规范化的关系数据库设计是使数据库的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。 星型模型缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。星型模型算数据冗余量很大。 2.2.4第三范式 范式实际上是传统的关系数据库的设计理论。 数据仓库可以按第三范式进行逻辑数据建模。它不同于星型模型在于,把事实表和维表的属性都集中在同一数据库中,按第三范式组织数据。它减少了维表中的键和不必要的属性。 著名的NCR数据仓库公司采用了第三范式的逻辑数据模型。 星型模型在进行多维数据分析时,速度是很快的。但是增加维度将是很困难的事情。 第三范式对于海量数据(如TB级),且需要处理大量的动态业务分析时,就显示了它的优势。 2.3数据抽取、转换和装载 数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档