2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0131).docxVIP

  • 0
  • 0
  • 约8.47千字
  • 约 11页
  • 2026-04-25 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0131).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

在数据清洗过程中,以下哪项操作属于处理“异常值”的常用方法?

A.对分类变量进行独热编码(One-HotEncoding)

B.使用Z-score方法识别并修正极端值

C.用均值填充数值型变量的缺失值

D.对连续变量进行分箱(Binning)

答案:B

解析:异常值处理的核心是识别并修正偏离正常分布的极端值。Z-score方法通过计算数据点与均值的标准差倍数来识别异常值(通常|Z|3视为异常),是典型的异常值处理方法。A是特征工程中的编码操作,C是缺失值处理,D是连续变量离散化,均与异常值无关。

以下哪个指标最适合评估二分类模型在“正类样本较少”场景下的性能?

A.准确率(Accuracy)

B.F1-score

C.均方误差(MSE)

D.R平方(R2)

答案:B

解析:当正类样本较少(类别不平衡)时,准确率会因负类样本占比高而虚高(如99%负类时,随机预测负类准确率达99%)。F1-score是精确率(Precision)和召回率(Recall)的调和平均,能更平衡地反映模型对正类的识别能力。C和D是回归任务的评估指标。

决策树模型中,“信息增益”的计算基于以下哪个概念?

A.基尼系数(GiniImpurity)

B.熵(Entropy)

C.均方误差(MSE)

D.

文档评论(0)

1亿VIP精品文档

相关文档