数据挖掘工程师算法面试题及答案.docxVIP

  • 0
  • 0
  • 约3.67千字
  • 约 10页
  • 2026-03-23 发布于福建
  • 举报

第PAGE页共NUMPAGES页

2026年数据挖掘工程师算法面试题及答案

一、选择题(共5题,每题2分,共10分)

1.数据预处理中,处理缺失值最常用的方法是?

A.删除含有缺失值的样本

B.均值/中位数/众数填充

C.K最近邻填充

D.回归填充

答案:B

解析:均值/中位数/众数填充是最常用且简单的方法,适用于数据分布较均匀的情况。删除样本会导致数据量减少,KNN和回归填充计算复杂,较少作为首选。

2.在特征选择中,基于过滤法的常用指标是?

A.Lasso回归系数

B.决策树特征重要性

C.相关性系数

D.递归特征消除(RFE)

答案:C

解析:过滤法通过统计指标评估特征与目标变量的关系,相关性系数是常用指标。Lasso和RFE属于包裹法,决策树特征重要性属于嵌入法。

3.对于分类问题,评估模型性能时,哪个指标在类别不平衡时最不可靠?

A.F1分数

B.准确率(Accuracy)

C.AUC(ROC曲线下面积)

D.召回率(Recall)

答案:B

解析:准确率在类别不平衡时会被误导,例如90%的样本属于A类,模型全预测A类也能达到90%准确率。F1、AUC和召回率能更好处理不平衡问题。

4.以下哪种算法最适合处理高维稀疏数据?

A.支持向量机(SVM)

B.决策树

C.神经网络

D.K近邻(KNN)

答案:A

解析:SVM

文档评论(0)

1亿VIP精品文档

相关文档