数据挖掘30109.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘考试提纲 名词解释(5道) 数据仓库(DW):是一个面向主题的、集成的、非遗失的、并且随时间变化的数据集合。特点:面向主题的、集成的、非易失的随时间而不断变化的 元数据:元数据是关于数据的数据,主要承担对数据仓库的数据和环境进行描述的角色,是整个数据仓库的核心。 数据集市:指数据仓库的一个子集,用于面向中层领导。 数据粒度:是数据仓库中数据综合程度高低的一种度量。 维:是人们观察数据的特定角度,是考虑问题时所涉及的一些属性,属性的集合构成一个维。 维表:用于记录维度的关系表。事实表:用于记录度量的关系表。维表和事实表的关系是:1)维表和事实表都是关系表;2)事实表的体积比维表的体积打大的多;3)事实表的某些字段是维表的主键,并通过主键与维表建立联系 规范化:数据的规范化指将数据分解成较小的合适的组成过程,强调数据存储的灵活性和高效性,使规范化后的结构占用很小的存储空间,增强数据库的存储效率。 数据挖掘的技术定义:指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含其中的、事先未知的、但又具有潜在价值的信息和知识的过程。 数据挖掘的商业定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、专换、分析和其他模型处理,从中提取辅助商业决策的关键性数据。 简答题(6道/7道) DB和DW的区别是什么? 答:1)DB处理的数据是可更新的,要求在操作的瞬间数据是准确的,面向应用的事务性操作;2)DW处理的数据是不可更新的历史数据,是面向主题的分析型操作。 2、元数据的类型和作用分别是什么? 答:类型 1)按元数据描述的内容划分:(1)基于数据的元数据;(2)数据处理的元数据;(3)企业组织的元数据;2)按用户角度划分:(1)技术元数据;(2)业务元数据;3)按元数据在数据仓库中承担的任务分类:(1)静态元数据;(2)动态元数据;4)按数据仓库的功能域划分:(1)数据获取;(2)数据存取;(3)信息传递 作用 1)元数据在数据求精、开发、重构中的作用 (1)描述业务规则与数据之间的映射;(2)数据分割;(3)概括与聚集;(4)提高系统灵活性;(5)定义标准处理规则 2)元数据在数据抽取与转换中的作用 (1)确定数据源;(2)保证数据仓库内容的质量;(3)实现属性间的映射与转换 3、数据集市与数据仓库的区别是什么? 答:数据仓库的数据来源于遗留系统,外部数据,而数据集市的数据来源于数据仓库;数据集市是数据仓库的子集;数据仓库用于企业级,而数据集市用于企业的部门或部门级;数据仓库划分时的粒度较细,而数据集市划分时的粒度较粗;此外,数据仓库的数据结构是规范化的第三范式,数据集市的数据结构是星形结构,雪花型结构以及二者的混合型数据结构。 4、DB、ODS和DW数据特征的差异分别是什么? 答:如下表 数据库系统(DB) 操作数据存储系统(ODS) 数据仓库(DW) 瞬态数据 当前和近期数据 历史数据 细节数据 细节数据 细节数据和综合数据 企业内部数据 企业内部数据 内部数据和必要的企业外部数据 可联机修改 可联机修改 不可更新 数据是分散的、非结构化的 数据集成 数据集成 面向事务处理 面向主题 面向主题 OLTP 全局OLTP/近期OLAP 长期战略决策 底层操作人员 中层管理人员 高管 5、比较说明OLTP和OLAP的异同 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼型数据 当前值数据 历史数据 数据可更新 数据不可更新,但会被周期性刷新 一次性处理的数据量较小 一次性处理的数据量大 面向应用,事物驱动 面向分析,分析驱动 面向操作人员的日常事务操作 面向决策人员的决策管理需要 6、MOLAP和ROLAP的比较 项目 数据存储 技术 特征 多维数据组织 MOLAP 详细数据通过关系表存储在数据仓库中;汇总数据保存在多维数据库中;在数据仓库中询问详细数据,从多维数据库中询问汇总数据 预先建立多为数据立方体;多维视图存储在阵列而非表格中;可高速检索矩阵数据;利用稀疏矩阵来管理汇总的稀疏数据 询问响应速度快;能轻松的适应多维分析;有广泛的钻取和多层次/多视角查询的能力 关系数据组织 ROLAP 全部数据以关系表形式存储在数据仓库中,可获得细节和综合的数据;有非常大的数据容量;从数据仓库中询问所有数据 使用复杂的SQL从数据仓库中获取数据;ROLAP引擎在数据分析中创建多维数据立方体;表示层能够表示多维视图 在复杂的数据分析功能上具有局限性,需要采用优化的OLAP;向下钻取数据较容易,但是跨维向下钻取数据较困难 7、联机分析处理OLAP的定义是什么,它所体现的特征是什么? 答:联机分析处理OL

文档评论(0)

sxty + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档