2026年数据科学《数据挖掘》模拟卷.docVIP

  • 2
  • 0
  • 约4.78千字
  • 约 16页
  • 2026-04-28 发布于中国
  • 举报

2026年数据科学《数据挖掘》模拟卷

一、单选题(总共10题,每题2分)

1.在数据挖掘过程中,哪个步骤通常被认为是数据预处理的关键环节?

A.数据集成

B.数据选择

C.数据变换

D.数据规约

2.决策树算法中,用于选择最优分裂属性的指标是?

A.信息增益

B.信息增益率

C.基尼不纯度

D.交叉熵

3.关联规则挖掘中,支持度和置信度的定义分别是什么?

A.支持度是项集在所有事务中出现的频率,置信度是项集A出现时项集B也出现的概率

B.支持度是项集A出现时项集B也出现的概率,置信度是项集在所有事务中出现的频率

C.支持度是项集在所有事务中出现的频率,置信度是项集A不出现时项集B也出现的概率

D.支持度是项集A不出现时项集B也出现的概率,置信度是项集在所有事务中出现的频率

4.在聚类算法中,K-means算法的主要缺点是什么?

A.对初始聚类中心敏感

B.无法处理高维数据

C.只能发现球状簇

D.计算复杂度高

5.在分类算法中,支持向量机(SVM)的基本思想是什么?

A.寻找最优分类超平面,最大化分类间隔

B.通过最小化错误率来分类数据

C.使用决策树结构来分类数据

D.通过神经网络来分类数据

6.在数据挖掘中,数据清洗的主要任务是什么?

A.提取数据中的关联规则

B.减少数据的维度

C.处理缺失值、异常值和噪声数据

D

文档评论(0)

1亿VIP精品文档

相关文档