数据仓库与数据挖掘,DBMS题库考试大纲和答案.docVIP

下载本文档

300
0
约6.89千字
约 8页
2018-03-25 发布于重庆
举报
版权申诉

数据仓库与数据挖掘,DBMS题库考试大纲和答案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据仓库与数据挖掘,DBMS题库考试大纲和答案

填空题：数据仓库的四个基本特征是指数据仓库中的数据是面向主题的、集成的、不可更新的和随时间不断变化的。 OLAP的实现方式有以下两种：基于关系数据库系统的实现和基于基于多维数据库系统的实现。数据从操作型环境到数据仓库过程中，通常需要进行的处理操作有抽取、转化、分析和模式化处理。数据仓库中数据的分割是指把数据分散到各自的物理单元中，他们能独立的处理。。数据分割后的数据单元称为分片，数据分片的类型有水平分片、垂直分片、混合分片和导出分片等。数据仓库系统是多种技术的综合体，它是由数据仓库,管理部分和分析工具三部分组成。聚集函数分为三种类型，分别是分布的、代数的、和整体的。粒度是数据仓库的重要概念，粒度越小，数据的细节程度越高，可以回答查询的种类就越少，但是查询效率将会很低；提高粒度将会提高查询效率，在数据仓库中通常采用多重粒度。名次解释：数据集市（Data Marts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。数据仓库的元数据元数据（Meta Data）——“关于数据的数据”，是指在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据，是定义数据仓库对象的数据。如传统数据库中的数据字典就是一种元数据。粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。数据越详细，粒度就越低，级别也就越低；反之则高。数据分割把逻辑上是统一整体的数据分割为较小的、可以独立管理的物理单元（分片）进行存储。聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法数据仓库的主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。分类按照分析对象的属性、特征，建立不同的组类来描述事物。例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。序列模式分析：发现在时间序列上，一个项目集之后的项目集是什么，即找到时间上连续的事件。广义索引也是为了提高数据仓库中数据访问速度而采用的一种索引技术。主要是处理一些最值问题。星型模型：是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统，为用户提供分析服务对象。核心是事实表，围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来，各个维度表都连接到中央事实表。 OLAP中的维和维层次维是人们观察数据的特定角度；维的层次是维在不同细节程度的描述雪片模型是对星型模型的扩展，每一个维度都可以向外连接到多个详细类别表。雪花模型对星型模型的维度表进一步标准化，对星型模型中的维度表进行了规范化处理。关联分析适合于从关系中挖掘知识。包含关联发现、序列模式发现和类似的时序发现等。问答题：操作型数据和分析型数据的主要区别是什么？你是如何理解数据仓库的数据是不可更新的，数据仓库的数据又是随时间不断变化的。从数据的使用方式上来看，数据仓库的数据是不可更新的，这是指当数据被存放到数据仓库中之后，最终用户只能通过分析工具进行查询、分析，而不能修改其中存储的数据。数据仓库的数据不可更新并不是说数据从进入数据仓库之后就永远不变，是随时间变化而定期地被更新，从而保证前端分析结论的时间有效性。举例说明数据仓库有哪三类聚集函数。聚集函数分成三类：分布的：一个聚集函数是分布的，如果它能以如下分布方式进行计算：设数据被划分为 n 个集合，函数在每一部分上的计算得到一个聚集值。如果将函数用于 n 个聚集值得到的结果，与将函数用于所有数据得到的结果一样，则该函数可以用分布方式计算。例如，count() 代数的：一个聚集函数是代数的，如果它能够由一个具有 M（其中，M 是一个整数界）个参数的代数函数计算，而每个参数都可以用一个分布聚集函数求得。例如，avg() 整体的：一个聚集函数是整体的，如果描述它的子聚集所需的存储没有一个常数界。即，不存在一个具有M个（其中，M是常数）参数的代数函数进行这一计算。整体函数的常见例子包括median(),mode()（即，最常出现的项），和 rank()。为什么说naive Bayesian分类法是 na?ve的？朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器.更精确的描述这种潜在的概率模型为独立特征模型。这种方法采用忽略了因数之间的关系，简化处理,把各属性彼此独立请简述数据仓库的体系结构。数据仓库系统的体系结构的分类（1）两层架构（Generic