2026年数据科学《数据挖掘》模拟卷.docVIP

2026年数据科学《数据挖掘》模拟卷.doc

2026年数据科学《数据挖掘》模拟卷

一、单选题（总共10题，每题2分）

1.在数据挖掘过程中，哪个步骤通常被认为是数据预处理的关键环节？

A.数据集成

B.数据选择

C.数据变换

D.数据规约

2.决策树算法中，用于选择最优分裂属性的指标是？

A.信息增益

B.信息增益率

C.基尼不纯度

D.交叉熵

3.关联规则挖掘中，支持度和置信度的定义分别是什么？

A.支持度是项集在所有事务中出现的频率，置信度是项集A出现时项集B也出现的概率

B.支持度是项集A出现时项集B也出现的概率，置信度是项集在所有事务中出现的频率

C.支持度是项集在所有事务中出现的频率，置信度是项集A不出现时项集B也出现的概率

D.支持度是项集A不出现时项集B也出现的概率，置信度是项集在所有事务中出现的频率

4.在聚类算法中，K-means算法的主要缺点是什么？

A.对初始聚类中心敏感

B.无法处理高维数据

C.只能发现球状簇

D.计算复杂度高

5.在分类算法中，支持向量机（SVM）的基本思想是什么？

A.寻找最优分类超平面，最大化分类间隔

B.通过最小化错误率来分类数据

C.使用决策树结构来分类数据

D.通过神经网络来分类数据

6.在数据挖掘中，数据清洗的主要任务是什么？

A.提取数据中的关联规则

B.减少数据的维度

C.处理缺失值、异常值和噪声数据

更多 >