2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0131）.docxVIP

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0131）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

在数据清洗过程中，以下哪项操作属于处理“异常值”的常用方法？

A.对分类变量进行独热编码（One-HotEncoding）

B.使用Z-score方法识别并修正极端值

C.用均值填充数值型变量的缺失值

D.对连续变量进行分箱（Binning）

答案：B

解析：异常值处理的核心是识别并修正偏离正常分布的极端值。Z-score方法通过计算数据点与均值的标准差倍数来识别异常值（通常|Z|3视为异常），是典型的异常值处理方法。A是特征工程中的编码操作，C是缺失值处理，D是连续变量离散化，均与异常值无关。

以下哪个指标最适合评估二分类模型在“正类样本较少”场景下的性能？

A.准确率（Accuracy）

B.F1-score

C.均方误差（MSE）

D.R平方（R2）

答案：B

解析：当正类样本较少（类别不平衡）时，准确率会因负类样本占比高而虚高（如99%负类时，随机预测负类准确率达99%）。F1-score是精确率（Precision）和召回率（Recall）的调和平均，能更平衡地反映模型对正类的识别能力。C和D是回归任务的评估指标。

决策树模型中，“信息增益”的计算基于以下哪个概念？

A.基尼系数（GiniImpurity）

B.熵（Entropy）

C.均方误差（MSE）

更多 >