青大《数据仓库与数据挖掘》复习.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
青大《数据仓库与数据挖掘》复习 ———————————————————————————————— 作者: ———————————————————————————————— 日期: 2021春?数据仓库与数据挖掘?复习提纲 商务智能【参考:BI是一种解决方案,它的目的是把用户积累下来的、大量的数据 转化为业务容易理解的信息,进而辅助决策。】 Kimball对数据仓库的定义【参考:DW仅仅是构成它的数据集市的联合。】 Inmon对数据仓库的定义【参考:一个面向主题的、集成的、随时间变化的、非易 逝的用于支持管理的决策过程的数据集合。】 ETL【参考:数据的提取、转换和装载,预处理数据并装在DW中。】 数据仓库总线矩阵【参考:该矩阵将公司业务过程映射到参与这些过程的实体或对象。矩阵的每一行对应一个业务过程,每一列描述对象,它们参与了各种业务过程。】 事实【参考:对一些事件发生结果的度量。】 维度【参考:维度是维度模型的根底,用来描述业务的对象。】 粒度【参考:事实表中包含信息的详尽程度。】 维度模型【参考:由一个中心事实表(或者多个事实表)和与其相关的维度构成。事 实表位于中心,而所有维度表环绕在其周围,类似于星形构造,因此又把维度模型称为星形模式。】 业务过程维度模型【参考:关于一个业务过程所有的维度模型的集合。】 多维数据集〔又称为数据立方体〕由维度和一个或多个度量组构成的多维分析构造,用于OLAP 部署【参考:将多维数据集的定义发布到OLAP效劳器上的过程。】 OLAP 联机分析处理采用多维数据构造和层次构造作为导航,探查汇总数据,辅助决策。 代理键【参考:对于DW/BI系统,需要在数据仓库数据库中建立一组与事务处理 源系统中的键别离开来的全新的键,称这种键为代理键。】独立于业务键的用于数据仓库中的从ETL中的人工键 渐变维度【参考:属性值可以改变的维度。分为值的改变需要跟踪和不需要跟踪两 种。】 聚合【参考:经过预先计算后形成的汇总表,主要目标是用来改良查询性能。】 星型模型【参考:由一个事实表和多个维度表构成的模型。事实表与维度表是1对多关系。事实表位于中心,而所有维度表环绕在其周围,类似于星形构造。】 雪花模型【参考:雪花模型是将维度表中的字段和查找表相连接而得到的结果。】 事实星座模型 由多个星型模型或雪花模型通过共享维度形成的多事实表多维度表的模型 多维数据库【参考:采用多维数据组存储数据,主要应用于OLAP效劳器的数据存 储构造。】 SQL Server 2005的维度层次 SQL Server 2005的属性层次 SQL Server Analysis Service默认为每个维度每个属性构成的单层构造 数据挖掘【参考答案:从海量数据中提取有趣模式或知识〔有趣是指:隐含的、非平凡的、事先未知的、潜在有用的〕】 数据挖掘的两大类通用功能【参考答案:描述型数据挖掘和预测型数据挖掘。前者用于刻画数据集的一般特征,后者对现有数据进展推演以用于新实例〔某个属性的取值〕的预测。】 OLAM【参考答案:On-Line Analytical Mining,联机分析挖掘,将OLAP与数据挖掘相互融合进展数据探查分析,是未来基于数据仓库的数据分析的一种趋势】 简单了解关联分析〔又称为关联规那么挖掘或购物篮分析〕、分类、回归、聚类分析的功能 关联分析:发现交易数据库中不同商品〔项〕之间的联系 分类:预测离散属性的取值 回归:预测连续属性的取值 聚类分析:将数据分类到不同的类或者簇 数据仓库各环节工具〔如ETL〕的市场占有率最高的公司【参考:〔1〕OLAP市场,微软第一;〔2〕ETL市场三大主流:Powercenter〔美国Information公司〕—ETL市场老大;DataStage〔IBM公司〕;ETL Automation〔数据仓库〔引擎〕老大美国Teradata公司〕。DI〔Data Integrator〔BO公司〕 数据库和数据仓库的区别【参考答案:〔1〕应用目的不同:数据库主要用于构建联 机事务处理〔OLTP〕系统,这种系统自己产生新数据,每次事务处理涉及的记录数较少,通常为几条;而数据仓库主要用于构建分析型决策支持系统,这种系统自己不产生新数据,所使用的数据来自于OLTP系统或其他数据源。〔2〕数据的时间跨度不同:数据库通常存放较新的业务数据;而数据仓库中存放的是历史业务数据,其时间跨度为5~10年。〔3〕数据的业务范围不同:数据库系统通常关注局部业务范围的事务处理;数据仓库通常要关注整个企业的全部业务。〔4〕所采用的设计技术不同:数据库面向事务,采用三范式〔3NF〕建模;数据仓库那么面向主题,采用三范式〔3NF〕或维度模型建模。〔5〕注重的技术不同:数据库系统存在大量的数据查询和数据更新,需要重点考虑包括数据更新

文档评论(0)

iphone0b + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体如皋市辰森技术服务工作室
IP属地江苏
统一社会信用代码/组织机构代码
92320682MA278Y740Q

1亿VIP精品文档

相关文档