[工学]软件项目管理2.pptVIP

下载本文档

0
0
约6.44千字
约 50页
2018-02-28 发布于浙江
举报
版权申诉

[工学]软件项目管理2.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[工学]软件项目管理2

2.1 数据仓库结构体系 2.2 数据仓库的数据模型 2.3数据抽取、转换和装载 2.4 元数据 2.1 数据仓库结构体系 2.1.1 数据仓库结构 2.1.2数据集市及其结构 2.1.3 数据仓库系统结构 2.1.4 数据仓库运行结构数据仓库是企业级的，数据集市是部门级的。 1.数据集市的产生数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前，全世界对数据仓库总投资的一半以上均集中在数据集市上。数据集市（Data Marts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库，主要针对某个应用或者具体部门级的应用，支持用户获得竞争优势或者找到进入新市场的具体解决方案。 3.数据集市与数据仓库差别（1）数据仓库是基于整个企业的数据模型建立的，它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。（2）部门的主题与企业的主题之间可能存在关联，也可能不存在关联。（3）数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织，如NCR公司采用第三范式。 1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义，设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、更详细的、预先存在的数据仓库的摘要子集 10、可升级到完整的数据仓库从属数据集市(Dependent Data Mart)：它的数据直接来源于中央数据仓库。这种结构仍能保持数据的一致性。独立数据集市(Independent Data Mart)：数据直接来源于各生产系统。 2.1.2 数据仓库系统结构数据仓库系统由数据仓库（DW）、仓库管理和分析工具三部分组成。数据仓库的数据来源于多个数据源（2）数据抽取、转换、装载数据仓库中的数据，是通过在源数据中抽取数据，按数据仓库的逻辑数据模型的要求进行数据转换，再按物理数据模型的要求装载到数据仓库中去。数据抽取、转换、装载（ETL）是建立数据仓库的重要步骤，需要花费开发数据仓库70%的工作量。（1）查询工具数据仓库的查询不是指对记录级数据的查询，而是指对分析要求的查询。以图形化方式展示数据，可以帮助了解数据的结构，关系以及动态性。（2）多维分析工具（OLAP工具）: 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取，这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角，如时间、地域、业务等。（3）数据挖掘工具从大量数据中挖掘具有规律性知识，需要利用数据挖掘（Data Mining）工具。维就是相同类数据的集合，商店、时间和产品都是维。各个商店的集合是一维，时间的集合是一维，商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商店、一个特定的时间、一个特定的商品组成。两维表，如通常的电子表格。三维构成立方体，若再增加一维，则图形很难想象，也不容易在屏幕上画出来。大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”（大表）以及多个“维表”（小表）所组成。 “事实表”中存放大量关于企业的事实数据（数量数据）。例如：多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据，维表是围绕事实表建立的较小的表。星型模型数据如下图：星型模型优点：非常规范化，以增加存储空间为代价，提高了多维数据的查询速度。而规范化的关系数据库设计是使数据库的冗余保持在最少，并减少了当数据改变时系统必须执行的动作。星型模型缺点：当业务问题发生变化，原来的维不能满足要求时，需要增加新的维。由于事实表的主键由所有的维表的主键组成，这种维的变化带来数据变化将是非常复杂、非常耗时的。星型模型算数据冗余量很大。 2.2.4第三范式范式实际上是传统的关系数据库的设计理论。数据仓库可以按第三范式进行逻辑数据建模。它不同于星型模型在于，把事实表和维表的属性都集中在同一数据库中，按第三范式组织数据。它减少了维表中的键和不必要的属性。著名的NCR数据仓库公司采用了第三范式的逻辑数据模型。星型模型在进行多维数据分析时，速度是很快的。但是增加维度将是很困难的事情。第三范式对于海量数据（如TB级），且需要处理大量的动态业务分析时，就显示了它的优势。 2.3数据抽取、转换和装载数据仓库的数据来源于多个数据源，主要是企业内部数据；存档的历史数据；企业的外部数据。这些数据源可能是在不同的硬