- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 数据仓库和数据挖掘的OLAP技术 什么是数据仓库? 多维数据模型 数据仓库的系统结构 数据仓库的实现 数据立方体技术的进一步发展 从数据仓库到数据挖掘 什么是数据仓库? 1、需求产生DW 使顾客满意,不断增加利润,提高市场份额,这些是目前商业竞争的基本目标。利用IT可以使我们获得成功。 答案之一就是DW: (1)?? 公司的目标如何与信息系统结合; (2)?? 如何建立具有交叉功能的信息系统; 数据的合理组织和利用。 2、数据处理分为两大类: (1)?? 事务处理:DB联机的日常操作,对一个或一组记录的查询和修改,为 企业服务。 (2)?? 分析型处理:用于管理人员的决策分析。例如DSS、EIS和多维分析,经常要访问大量的历史数据。 3、事务处理环境不适宜DSS应用的原因 (1)?? 事务处理和分析处理的性能特性不同 (2)?? 数据集成问题(DSS需要集成的数据) a. 事务处理应用的分散; b.蜘蛛网问题; c.数据不一致问题; d.外部数据和非结构化数据。 (3)?? 数据动态集成问题:数据必须以一定的周期进行刷新。 历史数据问题。在DB中存在大量的历史数据,没有充分利用。 DW的主要驱动力是市场竞争要求捕获和分析事务的业务数据,必须把分析型数据从事务处理环境中提取出来; DW是为了建立这种新的分析处理环境而出现的一种数据存储和组织技术。 “数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”—W. H. Inmon 什么是建立数据仓库? 我们把建立数据仓库看作是构造和使用数据仓库的过程 数据仓库的面向主题性 数据仓库是面向在数据模型中已定义好的公司的主要主题领域的,典型的例子有顾客、产品、销售等 数据仓库主要关注DSS分析员的数据建模与分析,而不是集中于组织机构的日常操作和事务处理 数据仓库排除对于决策无用的数据,提供特定主题的简明的视图 数据仓库的集成性 数据仓库是将多个异种数据源的数据集成在一起 异种数据源包括有关系数据库、一般文件和联机事务处理记录等 数据仓库使用数据清理和数据集成技术 数据清理和数据集成技术确保多个异种数据源中命名约定、编码结构、属性度量等的一致性 例如,宾馆的价格要考虑到货币的汇率、税金、是否包括早餐等 当数据从操作型环境进入到数据仓库,已经被进行过清理和转换 数据仓库的时变性 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限 操作型系统含有“当前值”数据,时间期限一般是60-90天 数据仓库从历史的角度提供信息,其中的数据仅仅是一系列某一时刻生成的复杂的快照,时间期限通常是5-10年 数据仓库中的键码结构 数据仓库中的关键结构,隐式或显式地包含时间元素 操作型系统的键码结构可能不包括时间元素 数据仓库是非易失的 数据仓库总是物理地、分离存放数据 数据仓库中不进行操作型环境中的数据更新 数据仓库不需要事务处理、恢复和并发控制机制 数据仓库通常只需要两种数据访问: 数据的初始化装入和数据访问 怎样建立数据仓库? 把建立数据仓库看作是构造和使用数据仓库的过程 主题是对应某一分析领域的分析对象 DW是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、非易失的数据集合。 实现DW要做: ??????? 从不同数据来源中如何集成数据 ????????? 数据质量:精确和简炼 数据的概括和聚集 每当数据源中创建了新数据时,如何保证DW和数据源的同步更新 在同一台计算机和RDB的平台上,当DW的DB和工具共享时如何保证性能 DW中的数据组织 在DW中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。 源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合级及至高度综合级 数据仓库主要用于集中 存放用户需要分析的历史数据 数据仓库的逻辑结构 近期基本数据层 历史数据层 综合数据层(为决策服务) 数据仓库的物理结构 星型结构(一般使用) 雪花结构 数据仓库的特征: 面向主题 集成性 时变的 非易失的 数据仓库中的数据分类 详细型数据 过去详细数据 当前详细数据 汇总型数据 轻度汇总数据 高度汇总数据 元数据 数据仓库的主要组成部分: (1)数据源 (2)数据抽取(Extraction)、 转换(Transformation)和装载(Load)工具。 (3)数据建模工具 (4)核心仓储(Central Repositor
您可能关注的文档
- 法律基础 (陈志超).ppt
- 5国际货物运输法.ppt
- 06级第10讲: 几何学的变革.ppt
- 放射诊断学第五节_泌尿系统.ppt
- 化工基础课件--第二章流体的流动和输送.ppt
- 矿井通风 第一章矿内空气.ppt
- 分子生物学 第五-六章 分子生物学研究方法-2010-11-8修改.ppt
- 计算机网络 第七章 应用层.ppt
- (新编)圆柱体积公式推导课件.ppt
- 83382_第四章__工程量清单及工程量清单的计.ppt
- DB13T 2810-2018 旅游直通车服务规范.docx
- DB13T 2656-2018 小麦抗禾谷孢囊线虫鉴定技术规程.docx
- DB13T 2594-2017 中药材种子质量标准祁沙参.docx
- DB13T 2688-2018 聚甲醛工业用长丝通用技术要求.docx
- DB13T 2798-2018 冬小麦节水性鉴定技术规范.docx
- DB13T 2916-2018 泥鳅池塘养殖技术规程.docx
- DB13T 2598-2017 花生品种真实性与纯度鉴定 SSR法.docx
- DB13T 2602-2017 冀西北寒旱区砂质栗钙土农田燕麦箭筈豌豆混作技术规程.docx
- DB13T 2693-2018 草莓四季生产栽培技术规程.docx
- DB13T 2742-2018 养老服务需求评估规范.docx
最近下载
- 水土保持方案编制要点.doc VIP
- 22G101 三维彩色立体图集.docx VIP
- 工业品MRO集采集配相关项目运营指导方案.docx
- 施工现场消防设施验收表(1).doc VIP
- 《智能网联汽车概论(活页式)》 课件 项目六知识点2:智能网联汽车路径规划.pptx
- 建筑施工方案.docx VIP
- 大模型驱动的智能软件开发.pdf VIP
- 2024新信息科技三年级《第一单元 开启信息生活》大单元 第1课 寻找信息科技 教学设计.docx VIP
- 2025广西公需科目考试答案(3套,涵盖95_试题)一区两地一园一通道建设;人工智能时代的机遇与挑战.pdf VIP
- 王思斌社会学教程笔记.docx VIP
文档评论(0)