- 3
- 0
- 约4.48千字
- 约 13页
- 2026-05-09 发布于四川
- 举报
(2025年)数据挖掘试题附答案
一、单项选择题(每题2分,共20分)
1.在数据挖掘中,处理类别不平衡数据时,以下哪种方法不属于“数据层面”的解决策略?
A.SMOTE过采样
B.调整分类阈值
C.欠采样多数类
D.提供合成少数类样本
答案:B(调整分类阈值属于“算法层面”的策略)
2.关于K-means聚类算法,以下描述错误的是?
A.初始质心的选择会影响最终聚类结果
B.适用于球形分布的数据
C.对噪声和离群点不敏感
D.需要预先指定聚类数K
答案:C(K-means对噪声和离群点敏感,因离群点会显著影响质心计算)
3.若某关联规则的支持度为0.3,置信度为0.8,其对应的提升度(Lift)计算需要的额外信息是?
A.规则前件的支持度
B.规则后件的支持度
C.所有事务中同时包含前件和后件的比例
D.所有事务中不包含前件的比例
答案:B(Lift=置信度/(后件支持度),需后件支持度)
4.在决策树中,使用基尼指数(GiniIndex)作为分裂标准时,节点的基尼值越小表示?
A.节点的类别越不纯
B.节点的类别越纯
C.节点的样本量越大
D.节点的特征区分度越低
答案:B(基尼指数衡量类别不纯度,值越小纯度越高)
5.以下哪种特征编码方法最适合
原创力文档

文档评论(0)