第5章 数据仓库及数据挖掘的DSS.ppt

  1. 1、本文档共178页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向主题 2.2 集成 5.1.2 数据仓库中的数据组织 1 数据的粒度 2 数据仓库的数据组织结构 3 数据的分割 4 数据仓库的数据组织形式 5 数据仓库的数据组织模式 6 数据的追加 1 粒度 粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。 细化程度越高,粒度级就越小; 细化程度越低,粒度级就越大。 粒度——细节的级别 粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。 多重粒度 粒度的一个例子 2 数据仓库的数据组织结构 3 分割 分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。 分片——数据分割后的独立单元。 数据的分割 提高了数据管理的灵活性 重构、索引、重组、恢复、监控 分割的标准:日期、地域、业务领域。 分割的一个例子 4 数据仓库的数据组织形式 简单堆积数据 轮转综合数据 简化直接数据 连续数据 简单堆积文件 轮转综合文件 简化直接文件 连续文件 元数据(Metadata) 元数据——关于数据的数据,它描述了数据的结构、内容、码、索引等。 数据仓库中元数据必须包含的内容 数据仓库的主题描述: 主题名、主体的公共码键、有关描述信息等 外部数据和非结构化数据的描述: 外部数据源名、存储地点、存储内容简述 记录系统定义: 主题名、属性名、数据源系统、源表名、源属性名 逻辑模型的定义: 关系名、属性1、属性2……属性n 数据进入数据仓库的转换规则 数据的抽取历史 粒度的定义 数据分割的定义 广义索引:广义索引名,属性1、属性2……属性n 有关存储路径和结构的描述 5 数据仓库的数据组织模式 星型模式(star schema) 雪花模式(snowflake schema) 混合模式 星型模式 雪花模式 6 数据追加 时标方法 对新插入或更新的数据记录,加入更新时的时标,扫描整个数据库。 DELTA文件 由应用生成的,记录了应用所改变的所有内容。DELTA文件的应用并不普遍。 前后映象文件对比 占用大量资源。 日志文件 是DB的固有机制,不会影响到OLTP的性能。数据冗余。 数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。 提供更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。 独立数据集市(Independent Data Mart) 从属数据集市(Dependent Data Mart) 两种数据集市 1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、工具集的紧密集成 10、更详细的、预先存在的数据仓库的摘要子集 11、可升级到完整的数据仓库 5.2 数据仓库系统 5.2.1数据仓库系统结构 数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。 分析工具集分两类工具: (1)查询工具 数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。 一般包含: 可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。 多维分析工具(OLAP工具): 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。 (2)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。 5.3.1 基本概念 1、 OLAP的定义 联机分析处理是是一种软件技术,他使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。 联机分析技术是共享多维信息的快速分析。 OLAP实例 1.多维概念视图 企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。 用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。 4.稳定的报表性能 报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。 5.客户/服务器体系结构 OLAP是建立在客户/ 服务器体系结构上的

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档