最新数据库和数据挖掘题库.doc

下载文档 降价啦

6
0
约1.36万字
约 12页
2017-08-25 发布于浙江
举报
版权申诉
保障服务

最新数据库和数据挖掘题库.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

最新数据库和数据挖掘题库

一、填空题（2×10=20分） 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。? 2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 ?3、数据处理通常分成两大类：联机事务处理和联机分析处理。 4、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。 5、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 6、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。 7、维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用代理键。? 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。? 8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：早期细节级、当前细节级、轻度综合级和高度综合级。? 9、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部分（包括名称、维度、类别、层次和度量）全面地描述出来。 10、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据用户需求设计聚合模型。 11、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。 12、数据仓库的数据量通常较大，且数据一般很少更新，可以通过设计和优化索引结构来提高数据存取性能。 13、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。 14、OLAP的实现方式有以下两种：基于关系数据库系统的实现和基于多维数据库系统的实现。 15、数据仓库的逻辑模型通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述出来。? 16、当维表中的主键在事实表中没有与外键关联时，这样的维称为退化维。它于事实表并无关系，但有时在查询限制条件（如订单号码、出货单编号等）中需要用到。 17、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割（分区）。 18、两种常用的大数据集的数据概化方法是数据立方体的方法（或OLAP）和面向属性的归纳方法。 19、目前，使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。 20、按照事实表中度量的可加性情况，可以把事实表对应的事实分为4种类型：事务事实、快照事实、线性项目事实和事件事实。 21、SQL?Server?SSAS提供了所有业务数据的同意整合试图，可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。 22、确定性时间序列分析就是设法消除随机型波动，拟合确定性趋势，因而形成了长期趋势分析、季节变动分析和循环变动测定等一系列确定性时间序列分析方法。二、名词解释 1.?数据仓库：是一种新的数据处理体系结构，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合，为企业决策支持系统提供所需的集成信息。? 2.?孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。? 3.?OLAP：OLAP是在OLTP的基础上发展起来的，以数据仓库为基础的数据分析处理，是共享多维信息的快速分析，是被专门设计用于支持复杂的分析操作，侧重对分析人员和高层管理人员的决策支持。? 4.?粒度：指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答查询问题的细节程度。? 5.?数据规范化：指将数据按比例缩放(如更换大单位)，使之落入一个特定的区域（如0－1）以提高数据挖掘效率的方法。规范化的常用方法有：最大－最小规范化、零－均值规范化、小数定标规范化。? 6.?决策树：是用样本的属性作为结点，用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法，可用于对新样本进行分类。 7.?数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。? 8.?数据归约：缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。? 9.?遗传算法：是一种优化搜索算法，它首先产生一个初始可行解群体，然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体，并最终达到全局最优。? 10.?聚类：是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程，使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。? 11.?关联规则：同时满足最小支持度阈值和最小可信