数据仓库与数据挖掘技术第2章数据仓库开发模型.pptVIP

  • 2
  • 0
  • 约1.7万字
  • 约 82页
  • 2019-08-24 发布于安徽
  • 举报

数据仓库与数据挖掘技术第2章数据仓库开发模型.ppt

20020701001-20020701050 20020701051-20020701100 20020701001-20020701025 20020701026-20020701050 20020701051-20020701070 20020701071-20020701100 20020701001 20020701002 …… 20020701026 20020701027 …… 20020701051 20020701070 …… 20020701071 20020701072 …… 图2.10 B-TREE索引示例 20020701026——地址 20020701027——地址 ……——地址 指向数据行的指针 2.4.4 数据仓库物理模型的优化问题 数据仓库物理模型进行优化时可以考虑以下解决方案: 1.合并表与簇文件(clustering file):几个表的记录分散存放在几个物理块中时,多个表的存取和连接操作的代价会很大。 2.建立数据序列:按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中,形成数据序列。 3.引入冗余,反规范化处理:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。 4.表的物理分割(分区):每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。 5.生成派生数据:在原始数据的基础上进行总结或计算,生成派生数据,可以在应用中直接使用这些派生数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。 2.5 数据仓库的元数据模型 元数据(metadata)是“关于数据的数据”,如在传统数据库中的数据字典就是一种元数据。元数据与指向数据仓库内容的索引相似,处于数据仓库的上层,并且记录数据仓库中对象的位置。元数据存储是对程序员所知的数据结构、DSS 分析员所知的数据结构、数据仓库的源数据、数据模型、数据模型和数据仓库的关系、抽取数据的历史记录等内容进行记录。 典型的元数据包括: 1.数据仓库的表结构。 2.数据仓库的表属性。 3.数据仓库的源数据(记录系统)。 4.从记录系统到数据仓库的映射。 5.数据模型的说明。 6.抽取日志。 7.访问数据的公用例行程序。 8.数据的定义/描述。 9.数据单元之间的关系。 2.5.1 元数据的类型 根据元数据的状态,可将元数据分为静态元数据和动态元数据两类。 1.静态元数据:业务规则、域、类别、索引、来源、生成时间、关系、数据类型、格式、描述、名称等。 2.动态元数据:处理、引用处、存储大小、存储位置、状态、统计信息、数据质量、更新时间、入库时间等。 根据使用情况,主要有技术元数据和业务元数据两类元数据: 1.技术元数据(Technical Metadata):为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;这种元数据称为技术元数据。 2.业务元数据(Business Metadata):用来和终端用户的多维商业模型/前端工具之间建立映射,此种元数据称之为业务元数据,常用来开发更先进的决策支持工具。 2.5.2 元数据的作用 在数据仓库中,元数据主要作用于以下几个方面: 1.数据源抽取。 2.数据源转换。 3.数据源净化。 4.数据源概括与聚集。 5.数据刷新。 6.数据仓库中的数据库设计。 7.查询与报表设计。 图2.12所示,显示了元数据在整个数据仓库开发和应用过程中的巨大影响。 图2.12 元数据在整个数据仓库开发和应用过程中的作用 2.5.3 元数据的收集与维护 在组织内部存在很多不同的元数据源。元数据可能来源于源系统、抽取的数据、转换或清理的数据、装载的数据、存储的数据及信息传递的过程。 1.从源系统收集元数据; 2.从抽取的数据中收集元数据; 3.从转换或清理的数据中收集元数据; 4.从数据装载中收集元数据; 5.从存储的数据中收集元数据; 6.从信息传递过程中收集元数据。 元数据维护时所面临的最大挑战是它存在于多个不同的来源,而每个来源都有自己的元数据仓储。元数据仓储(meta data repository)表示含有元数据的物理数据库表。 2.5.4 元数据的使用 数据仓库对元数据的使用主要体现在两个方面:第一,因为元数据对数据仓库中数据的内容和出处进行了详细说明,用户可以根据

文档评论(0)

1亿VIP精品文档

相关文档