- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章数据仓库的管理和应用
第 5 章 数据仓库的管理与应用 内容提要 5.1 数据仓库管理 5.2 数据仓库的决策支持与决策支持系统 5.3 数据仓库应用实例 5.1 数据仓库管理 5.1.1 用户使用数据仓库的管理 5.1.2 数据管理 为什么需要对数据仓库进行管理? 数据仓库中的数据也会随时间的延伸迅速的增长。 (1)数据仓库收集历史数据。 (2)数据仓库包含满足未知需求的数据集。 (3)数据仓库既包括了详细数据也包括了汇总数据。 (4)数据仓库还包含外部数据。 5.1.1 用户使用数据仓库的管理 1. 信息使用者使用数据仓库的性能优化 2. 探索者使用数据仓库的性能优化 1.信息使用者使用数据仓库的性能优化 非规格化 创建数据阵列 预连接表格 预聚集数据 聚类数据 压缩数据 定期净化数据 合并查询 2.探索者使用数据仓库的性能优化 (1)概括分析 分析数据的完整性和准确性(数据质量)。 (2)抽取 数据抽取的任务就是从数据仓库中抽取指定的数 据,并组织起来,送入支持探索者分析的探索仓 库中。 (3)建模 通过概括分析来理解数据,通过抽取来准备数 据,通过建模来分析数据。 5.1.2 数据管理 5.1.2.1 休眠数据 5.1.2.2 脏数据的产生和清理 5.1.2.3 监视数据 5.1.2.4 元数据管理 5.1.2.1 休眠数据 1.休眠数据概念 休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数据。 数据仓库中的数据随着时间的延续,数据被使用的情况会减少,休眠数据随之逐年增加。 一些事实: 国外的统计表明: 第1年内,数据仓库近期数据和综合数据几 乎被全部使用。 第2年内,休眠数据开始出现,数据仓库中 的数据不少未被使用。 第3年内,休眠数据在增长。 第4年内,休眠数据迅速增长。 2.休眠数据的产生与查找 (1)休眠数据的产生 ①在数据仓库中输入了过多的近期基本数据。 ②过多的增加了不必要的综合数据。 ③超过预测需求的历史数据均是休眠数据 (2)查找休眠数据 查找休眠数据的最好方法是监视用户查询 数据仓库的活动。 ① 监视用户查询的SQL语句。 ② 监视返回给用户的查询结果数据集。数 据仓库管理员能知道哪些数据没有被使用, 它们很可能就是休眠数据。 3.删除休眠数据 (1)直接删除休眠数据 ①删除用户不访问的数据。 ②通过数据访问模型来删除休眠数据。 (2)对休眠数据归档存储 (3)邻线(Near Line)存储 “邻线” 存储是一种二级数据存储方式。 “邻线”介于“在线(On Line)”和“离线(Off Line)”之间,将休眠数据从数据仓库的在线存储中转移到邻线存储中,平时不参与数据仓库的运行。 5.1.2.2脏数据的产生和清理 脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。 1.产生脏数据的途径 (1)开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。 (2)来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成这些数据时未对所有不同情况的数据都转换成统一形式,产生遗漏或用了不匹配的转换方法而产生脏数据。 (3)输入的数据已经过期。 (4)用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的脏数据。 2.清理脏数据 (1)检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义与规则所造成的脏数据进行清理。 (2)在对多个数据源进行集成时,清除那些遗漏或不匹配方法而产生的脏数据。 (3)对过期数据,对数据量较少时进行重新整理;对数据量大时,增加一些时间限制的规则来帮助对数据的使用。 5.1.2.3 监视数据 1.监视休眠数据 2.监视脏数据 5.1.2.4元数据管理 1.评估元数据的价值 (1) 在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。 5.1.2.4 元数据管理 1.评估元数据的价值 (1) 在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。 (2) 在数据仓库环境中元数据通过三种方式发挥作用。 描述源数据和目标的数据模型 在填充数据时描述转换集成的数据流 允许终端用户使用有意义的导航数据 (3) 获取数据和使用数据的元数据是元数据价值最大的用途。 2.管理元数据 (1)支持企业范围内的体系结构理解各种元数据目录,以及它们在企业范围内的体系结构的作用。 (2)基于知识库的方法 元数据一般存储在属性知识库中。转移到一个共享的、公共的元数据知识库中。
您可能关注的文档
- 模块三 教学媒体与资源利用.doc
- 模拟水上乐园的投资预算 筹建期.doc
- 模块五:利润的形成和分配核算.ppt
- 模拟试卷三及答案.doc
- 模拟试题及答案.doc
- 模糊控制的发展及其应用.doc
- 欢乐谷组织架构研究.doc
- 检验结果解读.ppt
- 欧拉公式的应用.ppt
- 橱柜常用材质.doc
- 江苏省泰州市2024-2025学年高三下学期开学调研测试-英语试题(含答案).docx
- 湖南省2025届高三下学期2月开学联考地理试题(含答案).docx
- 海南省文昌中学2024-2025学年高三上学期第三次月考语文试卷(含答案).docx
- 山东省齐鲁名校联考2025届高三学业水平联测(五)-数学试卷(含答案).docx
- 湖南省三湘名校教育联盟五市十校教研教改共同体2025届高三下学期2月入学大联考-英语试卷(含答案).docx
- 江西省金太阳2025届高三下学期2月联考-历史试题(含答案).docx
- 黔南州2024-2025学年度第一学期期末质量监测 物理试卷(学生版).docx
- 海南省文昌中学2024-2025学年高三上学期第三次月考政治(含答案).docx
- 海南省文昌中学2024-2025学年高三上学期第三次月考英语(含答案).docx
- 广东省三校2025届高三下学期2月第一次模拟考试-政治试题(含答案).docx
最近下载
- 一种钢铁综合废水浓盐水的减量化、资源化处理组合方法与系统.pdf VIP
- 《碳中和管理体系 要求》(征求意见稿).pdf
- 医院银行存款管理制度.docx VIP
- 新北师大版数学五年级上册第六单元“组合图形面积”单元试卷 .pdf VIP
- 人教版高中英语必修一全册教学课件.pptx
- 《工逆向工程与增材制造》课件——17. Geomagic Design X 草图建模方法 .pptx VIP
- 海姆立克急救法-(精).ppt VIP
- 北师大版九年级下册数学全册同步练习.docx VIP
- 2025全国青少年模拟飞行考核理论知识题库40题及参考答案1套.docx VIP
- 在线网课学习课堂《兵棋(中国人民武装警察部队警官学院)》单元测试考核答案.docx VIP
文档评论(0)