2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0404).docxVIP

  • 0
  • 0
  • 约2.19千字
  • 约 4页
  • 2026-05-11 发布于江苏
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0404).docx

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0404)

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

1.在数据清洗阶段,处理连续型变量的缺失值最适合采用的方法是?

A.删除包含缺失值的样本

B.用众数填补

C.用中位数填补

D.用同类别样本的均值填补

答案:C

解析:中位数对异常值不敏感,适合连续型变量。A可能导致数据损失,B适用于名义变量,D需满足数据分组同质性前提。

K-Means聚类算法无法直接应用于以下哪种数据类型?

A.数值型数据

B.分类型数据

C.时间序列数据

D.空间坐标数据

答案:B

解析:K-Means依赖欧式距离计算,需数值型输入。分类型数据需先进行独热编码等转换。

后续单选题略,共10题

二、多项选择题(共10题,每题2分,共20分)

1.关于特征工程的正确描述有?

A.独热编码可解决类别型变量有序性问题

B.特征缩放能提升梯度下降算法效率

C.递归特征消除(RFE)属于包装法特征选择

D.PCA降维会损失原始特征的可解释性

答案:BCD

解析:A错误(独热编码用于名义变量,不保留顺序);B正确(如MinMax缩放避免梯度震荡);C正确(RFE通过模型迭代选择);D正确(主成分为原始特征线性组合)。

以下哪些指标适用于评估二分类模型?

A.均方根误差(

文档评论(0)

1亿VIP精品文档

相关文档