- 2
- 0
- 约4.78千字
- 约 16页
- 2026-04-28 发布于中国
- 举报
2026年数据科学《数据挖掘》模拟卷
一、单选题(总共10题,每题2分)
1.在数据挖掘过程中,哪个步骤通常被认为是数据预处理的关键环节?
A.数据集成
B.数据选择
C.数据变换
D.数据规约
2.决策树算法中,用于选择最优分裂属性的指标是?
A.信息增益
B.信息增益率
C.基尼不纯度
D.交叉熵
3.关联规则挖掘中,支持度和置信度的定义分别是什么?
A.支持度是项集在所有事务中出现的频率,置信度是项集A出现时项集B也出现的概率
B.支持度是项集A出现时项集B也出现的概率,置信度是项集在所有事务中出现的频率
C.支持度是项集在所有事务中出现的频率,置信度是项集A不出现时项集B也出现的概率
D.支持度是项集A不出现时项集B也出现的概率,置信度是项集在所有事务中出现的频率
4.在聚类算法中,K-means算法的主要缺点是什么?
A.对初始聚类中心敏感
B.无法处理高维数据
C.只能发现球状簇
D.计算复杂度高
5.在分类算法中,支持向量机(SVM)的基本思想是什么?
A.寻找最优分类超平面,最大化分类间隔
B.通过最小化错误率来分类数据
C.使用决策树结构来分类数据
D.通过神经网络来分类数据
6.在数据挖掘中,数据清洗的主要任务是什么?
A.提取数据中的关联规则
B.减少数据的维度
C.处理缺失值、异常值和噪声数据
D
原创力文档

文档评论(0)