数据个仓库1.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.由数据库到数据仓库的原因:①数据太多,信息贫乏②异构环境数据的转换和共享③利用数据进行事务处理变为利用数据支持决策。 2.从数据库到数据仓库的演变,体现以下几点:①数据库用于事务处理,数据仓库用于决策分析②数据库保持事务处理的当前状态,数据仓库及保存过去的数据有保存当前的数据③数据仓库的数据是大量数据库的集成④对数据库的操作比较明确,对数据仓库的操作不明确,操作数量大 3.数据库与数据仓库区别 数据库:①面向应用②数据是详细的③保持当前数据④数据是可更新的⑤对数据操作是重复的⑥操作需求是事先可知的⑦一个操作存取一个记录⑧数据非冗余⑨操作比较频繁⑩操作是原始数据 事务处理需要是当前数据 很少有复杂的计算 支持事务处理 数据仓库:①面向主题②数据是综合的或是提炼的③保存过去和现在的数据④数据不更新⑤对数据的操作是启发式的⑥操作需求是临时决定的⑦一个操作存取一个集合⑧数据时常冗余⑨操作相对不频繁⑩查询的是经过加工的数据 决策分析需要过去、现在的数据 很多复杂计算 支持决策分析 4.OLTP联机事务处理:是在网络环境下的事务处理工作,利用计算机网络技术以快速的事务响应和频繁的数据修改为特征,使用户利用数据库能够快捷的处理具体的业务,OLTP是事务处理从单机到网络环境发展的新阶段 OLAP联机分析处理:是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的,能够真正为用户所理解的,并真实反映企业维持企业信息进行快速、一致、交互的存取,从而获得对数据更深入的了解 5.数据字典(数据项,数据结构,数据流,数据存储和处理) 数据项:数据项是不可分的数据单元。数据结构:反应数据之间的组合关系。数据流:是数据结构在系统内传输的路径。数据存储:数据结构保存数据的地方。处理过程:一般用判定表或判定树来描述。 6.元数据:定义为关于数据的数据,即元数据描述了数据仓库的数据和环境。 作用:元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的而运行都是基于元数据的,如数据的修改、跟踪、抽取、装入、综合以及使用等。由于元数据遍及数据仓库的所有方面,已成为整个数据仓库的核心。 四种类型:①数据源的元数据②数据模型的元数据③数据源与数据仓库映射的元数据④数据仓库应用的元数据 7.数据挖掘与OLAP的比较:OLAP①是在多为结构上进行数据分析的,对数据进行切片、切块、钻取操作②需要使用大量用户同时使用同一批数据源,适应于不同地理位置的分散化的决策③平时需要查询大量的日常商业活动信息,对变化的信息进行追踪查询,找出存在的原因④是在带层次的维度和跨维度进行多维数据分析的。 数据挖掘①以变量和记录为基础进行分析②它的任务在于聚类,分类,预测等。这些都是带有探索性的及建模功能③数据挖掘在于寻找不平常的且有用的商业运作模型,考察数据的不同类型或者找出变量之间的关系④数据挖掘需要考察海量的数据。 8数据仓库的定义:是面向主题的,集成的,不同时间的数据集合,用于支持经营管理中决策制定过程。 特点:①面向主题②集成的③随时间变化④稳定⑤数据量很大⑥需要一个巨大的硬件平台 9.数据仓库结构:当前基本数据,历史基本数据,轻度综合数据,高度综合数据 10.粒度:是指数据仓库的数据单元中保存数据的细化或综合程度的级别,细化的程度越详细,粒度的级别越低。 11.数据集市(更小,更集中的数据仓库) 从属数据集市:数据直接来源于中央仓库。优点:提高查询反应速度 独立数据集市:数据直接来源于生产系统 12.数据集市与数据仓库的区别:①范围:数据仓库是企业级的,数据集市是部门级的②主题:数据仓库是企业主题,数据集市是部门或特殊的分析主题③数据粒度:数据仓库是最细的粒度,数据集市是较粗的粒度④历史数据:数据仓库是大量的历史数据,数据集市是适度的历史数据⑤优化:数据仓库是处理海量数据、数据探索的,数据集市便于访问和分析,快速查询 13数据集市的特性: ①规模是小的,特定应用的②面向部门③由业务部门定义、设计和开发④工具集的紧密集成⑤由业务部门管理和维护⑥快速实现⑦价格较低廉⑧投资快速回收⑨更详细的、预先存在的数据仓库的摘要子集⑩可升级到完整的数据仓库 14.划分主题的两大原则:独立性和完备性 数据挖掘的定义:从技术角度看,数据就是从大量,不完全的,有噪声的,模糊地,随机的实际数据中提取隐含在其中,人们不知道但那又是潜在有用的信息和知识的过程。 15.仓库管理(包括数据建模,数据抽取、转换、装载(ETL),元数据、系统管理) ①数据建模:数据仓库的数据模型按数据仓库设计过程可分为概念数据模型,逻辑数据模型和物理数据模型 16.数据仓库的数据模型与数据库的数据模型不同点

文档评论(0)

kkko + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档