2020年华南师范大学《数据挖掘》期末练习题.pdfVIP

2020年华南师范大学《数据挖掘》期末练习题.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1.数据挖掘系统可以根据什么标准进行分类?

挖掘的数据库类型分类、挖掘的知识类型分类、所用的技术分类、应用分类

2.知识发现过程包括哪些步骤?

数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示

3.什么是概念分层?

一个概念分层定义一个映射序列,将底层概念到更一般的高层概念。

4.多维数据模型上的OLAP操作包括哪些?

上卷、下钻、切片和切块、转轴、其它OLAP操作

5.OLAP服务器类型有哪几种?

关系OLAP(ROLAP)服务器、多维OLAP(MOLAP)服务器、

混合OLAP(HOLAP)服务器、特殊的SQL服务器

6.数据预处理技术包括哪些?

数据清理、数据集成、数据变换、数据归约

7.什么是数据清理?

数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性

8.什么是数据集成?

数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。

1

这些源可能包括多个数据库、数据方或一般文件。

9.什么是数据归约?

数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,

而使得信息内容的损失最小。

10.数据清理的内容包括哪些?

遗漏值、噪音数据、不一致数据

11.将下列缩略语复原

OLAP——on-lineanalyticalprocessing

DM——datamining

KDD——knowledgediscoveryindatabases

OLTP——on-linetransactionprocessing

DBMS——databasemanagementsystem

DWT——discretewavelettransform

12.什么是数据挖掘?

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们

事先不知道的,但又有潜在有用的信息和知识的过程。

13.什么是关联规则?什么是强关联规则?强关联规则都是有趣的吗?

关联规则:关联规则挖掘寻找给定数据集中项之间的有趣联系。

2

强关联规则:同时满足用户定义的最小置信度阈值和最小支持度阈值的关联规则称为强关联规则。

都是有趣的

14.什么是可信度?

规则的蕴涵强度估计

15.什么是支持度?

出现规则模式的任务相关元祖所占的百分比

16.数据仓库的主要特征是什么?

面向主题的、集成的、时变的、非易失的数据集合。

17.什么是数据集市?

数据及时包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定主题。

18.数据库中的知识发现过程由哪几个步骤组成?

(1)数据准备,(2)数据挖掘,(3)结果表达和解释

19.典型的数据挖掘系统有哪几个主要成分?

数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评

估模块;用户界面

20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?

规划、需求研究、问题分析、仓库设计、数据集成和测试,最后,配置数据仓库。

21.在数据挖掘系统中,为什么数据清理十分重要?

3

脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22.脏数据形成的原因有哪些?

滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的惯用语、重复记录、丢失值、拼写变化、不同的

计量单位、过时的编码。

23.数据清理时,对空缺值有哪些处理方法?

忽略元祖、人工填写遗漏值、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定

元祖属同一类的所有样本的平

文档评论(0)

。。。。 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档