最重要:商业智能复习提纲doc.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最重要:商业智能复习提纲doc

业务数据库中错综复杂的抽取与访问将产生“蜘蛛网”现象,这样会带来很多的问题,诸如数据分析的结果缺乏可靠性、数据处理的效率很低、难于将数据转化成信息。 数据处理被分为操作型处理和分析型处理(或信息型处理)两大类。操作型处理以传统的数据库为中心进行企业的日常业务处理。 分析型处理以数据仓库为中心分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。 操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营;而分析型系统的使用人员通常是企业的中高层管理者,或者是从事数据分析的工程师。分析型系统包含的信息往往是企业的宏观信息而非具体的细节,其目的是为企业的决策者提供支持信息。 决策支持系统即DSS(Decision Support System)由3个层次的内容组成:数据仓库、联机分析处理(On-line Analytical Processing,OLAP)和数据挖掘(Data Mining,DM)。 作为商业智能系统中的核心部分,决策支持系统必须具备企业级的多维信息查询、OLAP在线分析处理、数据挖掘、预测等功能。 业务系统中提取的或者从外部数据源中导入的数据经过清洗、转化后成为数据仓库的原始数据,需要注意的是,它们是数据仓库数据的一部分,但不是全部。由于需要数据仓库进行OLAP分析和数据挖掘,因此需要在原始数据的基础上增加冗余信息,比如进行大量的预运算,建立多维数据库,以求迅速的展现数据。 “元数据”就是描述数据的数据,它提供了有关数据的环境。读者熟悉的可能是数据库系统的元数据,它包含数据库系统的所有存储信息、各个数据库和数据表中的字段信息、数据表之间的关联信息、数据索引约束等等。 数据仓库的元数据主要包含两类数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓库中的转化;第二种元数据在仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为决策支持系统(DSS)元数据,它包括: (1)数据仓库中信息的种类、存储位置、存储格式; (2)信息之间的关系、信息和业务的关系、数据使用的业务规则; (3)数据模型; (4)数据模型和数据仓库的关系。 操作型数据的特点 分析型数据的特点 细节的 综合的、经过提炼的 在存取的瞬间是准确的 代表过去的数据 可更新的 不更新 操作需求通常事先可知 分析需求通常事先不知道 生命周期符合SDLC 生命周期不同于SDLC 对性能(如操作延迟)要求高 对性能要求较宽 一个时刻操作一个数据单元 一个时刻操作一个数据集合 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作需求 支持管理需求 W.H.Inmon进而把数据仓库定义为“用于管理决策支持的面向主题、集成、稳定、随时间变化的数据集合”。他指出了数据仓库面向主题、集成、稳定、随时间变化这4个最重要的特征。 数据颗粒度是数据仓库中极其重要的概念。我们知道数据仓库是面向OLAP(联机分析处理)和DM(数据挖掘)的,对于OLAP和DM,数据颗粒度有不同的含义。 OLAP的一个重要的功能就是想最终用户呈现不同综合程度的数据。第一种粒度就是对数据仓库中数据综合程度高度的一个度量。数据的综合程度不同,其数据量将相差很大。数据粒度越小,信息越细节,数据量越大。数据粒度越大,忽略了众多的细节,数据量越小。在数据仓库中多重的数据粒度是必不可少的。 粒度的第二种形式是指抽样率,即以一定的抽样率对数据仓库中的数据进行抽样后得到一个样本数据库,数据挖掘将在这个样本数据库上进行 按照时间进行分割符合数据仓库数据随时间变化的特点,并且分割后数据分布比较均匀,所以是最常见的分割方法。数据仓库的数据组织形式 在数据仓库发展过程中,出现了不同的数据组织形式,这里介绍几种简单的组织形式。 简单堆积文件。简单堆积文件就是将每天由数据库提取并处理后的数据逐天存储起来 定期综合文件。这种方式中,数据存储单位被分成日、周、旬、月、季度、年等多个级别,数据被逐一的添加到每天的数据集合中,当一个星期过去了,每天数据被综合成周数据,以此类推,周数据被综合成月数据…… 连续文件 数据仓库的数据追加技术 解决的是在数据仓库初始数据转载后,如何再向数据仓库数据数据的问题。 如果数据库中的数据没有发生变化,则不需要对数据仓库进行追加,因此,数据追加实际上只增加在上次数据输入后数据库中变化了的数据。要完成数据追加的工作,最关键的是“捕捉”数据变化,并将数据的变化记录下来。 时标法2. 前后映像比较法3. DELTA文件法4. 日志文件法 数据仓库建设的两条技术路线 一种直观的建设方法是“自顶向下”。首先建立全局级的数据仓库

文档评论(0)

jiaoyuguanliji + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档