- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章基于数据仓库的数据挖掘技术.ppt
第 二 章数据仓库原理 本章内容提要: 1、介绍数据仓库的结构和技术要求 2、介绍数据仓库的数据组织和模型 3、介绍元数据 第一节 数据仓库的结构和技术要求 一、数据仓库的总体结构 (一)数据仓库的概念结构 数据仓库的概念结构包含数据源、数 据准备区、数据仓库、数据集市以及 各种管理工具和应用工具等等。 (二)数据仓库的层次结构 (1)功能层 完成数据仓库和数据集市的结构、数 据的存取和使用等功能 (2)管理层 数据管理和元数据管理 (3)环境支持层 数据传输和数据仓库基础结构 (三)数据仓库的结构模式 (1)数据仓库的自顶向下结构 (2)数据仓库的自底向上结构 比较: 指导思想 集成的力度 数据集市中的数据粒度 (3)企业级数据集市结构(EDMA)通过创建一个共享的结构, EDMA支持由数据集市到数据仓库的开发。 EDMA框架包括企业主题域、通用维、度量、业务规则和数据源,所有这些都在逻辑上统一的全局元数据中心库中表示出来。这种框架不是固定不变的,它随数据仓库的开发而不断调整。 二、数据集市 (一)数据集市(Data Mart)的定义 数据集市是针对某个具有战略意义的 应用或者具体部门级的应用的数据仓 库,它支持用户利用已有的数据进行 管理决策。 (二)数据集市的特点 ①规模小,可采用多种方式灵活组织。 ②工作由业务部门主持定义、设计、 实施、管理和维护。 ③快速实现,代价较低,投资回收快,风 险小。 ④紧密集成。 ⑤可升级到数据仓库。 (三)数据集市的类型 ①从属数据集市 ②独立数据集市 注:可以从数据仓库的结构模式来理 解。 三、数据仓库的技术要求 (一)数据管理技术 大批量数据管理技术、数据仓库索引 和数据监视技术、元数据管理技术、 数据压缩技术和复合键码技术等等。 (二)数据存储技术 多介质存储设备管理技术、数据存储 控制技术、数据并行存储技术、可变 长技术、锁切换技术等等。 (三)数据仓库接口技术 多技术接口技术、多语言接口技术、 数据的高效装载技术等等。 第二节 数据仓库的数据组织和模型 一、数据仓库的数据组织 数据仓库系统通常由数据仓库、管理 部分和分析工具三个部分组成。 (一)数据仓库管理部分 (1)建模工具,主要用于完成定义数 据源、数据仓库以及两者相互转换、 清理的规则等工作。 (2)抽取/转换/装载,主要用于完成 获取数据、消除不一致现象和集成数 据等工作。 (3)管理工具,主要用于完成数据仓 库中数据的维护、安全、备份、恢 复、日志等工作。 (4)元数据管理,主要用于完成元数 据的管理、存储以及对整个数据仓库 的检测等工作。 (二)数据仓库存储部分 数据仓库中数据的组织通常采用分级 的方式来进行的,一般包括早期细节 数据、当前细节数据、轻度综合数 据、高度综合数据以及元数据等五部 分组成。 (三)数据仓库应用部分 数据仓库应用部分主要由一些分析工 具组成,主要包括检索查询工具、联 机分析处理工具和数据挖掘工具等等 组成。 数据仓库系统采用典型的客户机/服 务器结构形式,其客户端的工作主要 包括客户交互、格式化查询、可视化 以及报表生成等内容,服务器端完成 各种复杂的计算以及其它综合功能。 这种方式有助于提高性能和可靠性、 降低数据传输量以及保证数据的安全 性等方面具有很大的好处。 二、数据仓库的数据模型 (一)数据模型设计过程与方法 数据模型是对现实世界进行抽象的工 具,需要将现实世界的事物及其有关 特征转换为信息世界的数据,才能对 信息进行处理与管理,这就需要依靠 数据模型作为这种转换的桥梁。这种 转换经历了现实世界、概念世界、逻 辑世界和计算机世界等环节。 作为数据仓库设计的模型,除了要有描述 概念世界的概念模型、描述逻辑世界的逻 辑模型和描述计算机世界的物理模型以 外,还有元数据模型和数据粒度模型。 (二)概念模型设计(信息包图) 在需求分析阶段,通过与用户的交 流,明确用户的需求,并将这些需求 抽象为信息结构(即概念模型)的过 程被称为概念模型设计。 因为数据仓库具有多维性,即其维度多在 三维或者三维以上,数据呈现难以直观 化,所以在此可以采用一种称为信息包图 的方法在平面上将多维空间展开,即用二 维表格来传递决策者分析处理的需求,来 反映数据仓库的多维性。 信息包图是一种公共的、一致的和紧凑的 概念模型设计工具,可以反映用户需求的 集中范围,能在适当的时间内将有效的信 息传递给希望获取它们的人。 信息包图由名称、维度、类别、层次和度 量等五部分组成。 1、名称:名称表达了信息包图所描述的 主要内容。它书写在信息包图的二维表格 的上方。 2、维度:维度是一个物理特性,也是一 个访问和表达数据的基本途径,还是一个 观察和浏览数据的角度。它书写在信息包 图的二
您可能关注的文档
- 第九章组织形象分析及CIS战略.ppt
- 第九章终端服务.ppt
- 第九章结构化程序设计.ppt
- 第九章统计分析(社会调查统计).ppt
- 第九章网上保险.ppt
- 第九章色谱分析习题及答案.doc
- 第九章药物利用研究.ppt
- 第九章著作权的保护.ppt
- 第九章规律论(二)德智体全面发展规律.doc
- 第九章设施果树栽培技术.doc
- 2025年氯系漂白助剂项目规划申请报告.docx
- 2025年vb程序设计试题及答案.doc
- 2025年党史知识竞赛试题及答案.doc
- 2025年秘密花园测试题及答案.doc
- 解析卷-苏科版九年级物理上册《机械能和内能》综合测评试卷(含答案详解版).docx
- 难点解析-苏科版九年级物理上册《机械能和内能》难点解析试题(含解析).docx
- 考点解析-苏科版九年级物理上册《机械能和内能》综合练习练习题(含答案详解).docx
- 考点解析苏科版九年级物理上册《机械能和内能》专题测评试卷(含答案详解版).docx
- 苏科版九年级物理上册《机械能和内能》定向攻克试题(含详解).docx
- 2025年河北省邢台市行政职业能力测验模拟试题及参考答案.docx
文档评论(0)