2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0404）.docxVIP

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0404）.docx

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0404）

数据科学专业认证(CDSP)考试试卷

一、单项选择题（共10题，每题1分，共10分）

1.在数据清洗阶段，处理连续型变量的缺失值最适合采用的方法是？

A.删除包含缺失值的样本

B.用众数填补

C.用中位数填补

D.用同类别样本的均值填补

答案：C

解析：中位数对异常值不敏感，适合连续型变量。A可能导致数据损失，B适用于名义变量，D需满足数据分组同质性前提。

K-Means聚类算法无法直接应用于以下哪种数据类型？

A.数值型数据

B.分类型数据

C.时间序列数据

D.空间坐标数据

答案：B

解析：K-Means依赖欧式距离计算，需数值型输入。分类型数据需先进行独热编码等转换。

后续单选题略，共10题

二、多项选择题（共10题，每题2分，共20分）

1.关于特征工程的正确描述有？

A.独热编码可解决类别型变量有序性问题

B.特征缩放能提升梯度下降算法效率

C.递归特征消除(RFE)属于包装法特征选择

D.PCA降维会损失原始特征的可解释性

答案：BCD

解析：A错误（独热编码用于名义变量，不保留顺序）；B正确（如MinMax缩放避免梯度震荡）；C正确（RFE通过模型迭代选择）；D正确（主成分为原始特征线性组合）。

以下哪些指标适用于评估二分类模型？

A.均方根误差(

更多 >