云南大学数据仓库期末复习.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云南大学数据仓库期末复习

章1:1、自然演化体系存在3个问题数据可信性。生产率。数据转化为信息的不可行性2、数据可靠性问题的5个原因数据无时基。数据算法上的差异。抽取的多层次。外部数据问题。无起始公共数据源3、体系化结构中的俩种数据及其区别原始数据是维持企业日常运作所需的细节性数据;导出数据是要经过汇总或计算来满足公司管理者需要的数据。原始数据可以更新;导出数据可以重新计算得出,但不能直接进行更新。原始数据主要是当前值数据;导出数据通常为历史数据。原始数据由以重复方式运行的过程操作;导出数据有启发式而非重复的运行的程序与过程操作。操作型数据是原始的;DSS数据是导出的。原始数据支持日常工作;导出数据则支持管理工作。4、体系化结构四个层次要点:名字、特点、时间跨度、data用途、应用领域(服务对象)操作层:细节的 日常的 当前值的 访问频繁的 面向应用的原子/数据仓库层:大部分是粒度化数据 随时间变化的 集成的 面向主题 一些汇总部门层:领域狭隘 一些导出数据;一些原始数据 典型的部门:财务、市场、工程、保险、制造个体层:暂时的 为特定目的的 启发式的 非重复的 基于PC和工作站的5、传统软件开发生命周期与数据仓库开发生命周期传统的S D L C? 收集需求? 分析? 设计? 编程? 调试? 集成? 实现requirement-driven需求驱动的、瀑布式模型数据仓库S D L C? 实现数据仓库? 集成数据? 检验偏差? 针对数据编程? 设计D S S系统? 分析结果? 理解需求数据驱动的、螺旋式模型章2:1、数据仓库定义数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。2、元数据定义数据的所有者、数据的提供方式等有关的信息(是关于数据的数据)3、粒度带来的优势及定义定义:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。优势:(1)可以从不同角度观察数据(2)利用数据仓库对数据进行一致性协调(3)数据仓库低级别粒度的另一个好处是灵活性(4)粒度化的数据带来的另一个好处是其中包含了整个企业的活动和事件的历史。而且粒度级别足够详细,使得整个企业的数据为满足不同的需要而进行重构。4、分区的定义数据分区是指把数据分散到可独立处理的分离物理单元中去。5、面向主题的数据如何关联?顾客主题域的所有物理表通过一个公共关键字联系起来。当数据围绕主题组织时,每个关键字都有一个时间元素。章3:1、数据仓库设计包括2部分与操作型系统接口的设计和数据仓库本身的设计。2、从操作性环境加载到数据仓库中的三种数据档案数据操作型系统中的现有数据在操作型环境不断变化的数据3、过程模型数据模型过程模型仅仅适用于操作型环境。数据模型既可用于操作型环境,又可用于数据仓库环境。过程模型一般包括以下内容:(适用于数据集市的建立)功能分解第零层上下文图数据流图结构图状态转换图HIPO图伪代码4、稳定性分析稳定性分析是根据各个数据属性是否经常变化的特性将这些属性进行分组。稳定性分析(通常是物理数据库设计之前数据建模的最后一步)的最后结果就是建立具有相似特性的数据分组。根据属性的值改变的频率来进行划分,使得同组的数据具有相似的特征5、数据仓库中的数据模型(3层)要点、名字、各层设计关键问题高层建模(实体关系图,ERD):中间层建模(数据项集,DIS):底层建模(物理模型):6、Snapshot 组成部分及触发Snapshot的两种事件及其特点“活动-发生”事件“时间-发生”事件前者的发生一般是随机的,而后者的发生一般是周期性的、可预测的。组成:1)关键字2)时间单元3)只与关键字相关的主要数据4)二级数据(可选)事件:(1)一类事件是对离散活动信息的记录,例如填写支票,打电话。离散活动是随机发生的。(2)另一类快照触发器是时间。这是一种可预期的触发器,如一天的结束,一周的结束。7、概要记录与Snapshot的区别使用简要记录的原因:(1)数据仓库中的数据无法满足稳定性和不易改变的标准;(2)海量的数据;(3)数据的内容频繁的改变;(4)从商业角度来看,不需要严苛的数据的历史记录;简要记录和数据快照:区别:在数据仓库中的个体活动记录代表一个单一的事件;而简要记录则代表了多个事件;8、多维方法构成(3部分),使用场合多维方法:这种方法需要星形连接,事实表和维。使用场合:适用于数据集市,而不适合数据仓库。9、星形连接定义维表与事实表区别用来管理载入数据集市中某个实体的大量数据的设计结构称为星形连接。关系数据库中强调所有的表格之间的位置和关系是对等的。而实际上有些表格的内容远远超过其它表格。所以在多维模型中,事实表比维表更重要,包含更多数据,事实表一般保存数值数据,而维表多保存文本数据。章5:1、

文档评论(0)

aena45 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档