2026年数据分析师《数据挖掘》冲刺卷.docVIP

  • 2
  • 0
  • 约3.16千字
  • 约 13页
  • 2026-05-23 发布于中国
  • 举报

2026年数据分析师《数据挖掘》冲刺卷.doc

2026年数据分析师《数据挖掘》冲刺卷

一、单选题(总共10题,每题2分)

1.在数据挖掘过程中,用于描述数据集中数据项之间相似性的度量是?

A.相关性

B.距离

C.权重

D.偏度

2.决策树算法中,选择分裂属性时常用的指标是?

A.信息增益

B.方差分析

C.相关系数

D.均值绝对偏差

3.在聚类算法中,K-means算法的主要缺点是?

A.对初始聚类中心敏感

B.无法处理高维数据

C.计算复杂度高

D.只能处理小规模数据集

4.关联规则挖掘中,支持度表示?

A.规则的置信度

B.项目集在数据集中出现的频率

C.规则的强度

D.项目集的多样性

5.在分类算法中,逻辑回归模型属于?

A.监督学习

B.无监督学习

C.半监督学习

D.强化学习

6.在数据预处理中,处理缺失值常用的方法不包括?

A.删除含有缺失值的记录

B.填充缺失值

C.使用模型预测缺失值

D.对缺失值进行编码

7.在特征选择中,使用信息增益比作为评价标准的算法是?

A.递归特征消除

B.Lasso回归

C.决策树

D.逐步回归

8.在集成学习中,随机森林算法通过什么方法来提高模型的鲁棒性?

A.增加单个决策树的复杂度

B.减少决策树之间的相关性

C.增加数据集的规模

D.减少特征的数量

9.在异常检测中,孤立森林算法的主要思想是

文档评论(0)

1亿VIP精品文档

相关文档