2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0118).docxVIP

  • 0
  • 0
  • 约7.68千字
  • 约 12页
  • 2026-03-15 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0118).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

在分类模型的混淆矩阵中,“真正例(TruePositive)”指的是?

A.实际为负类,模型预测为负类

B.实际为正类,模型预测为正类

C.实际为负类,模型预测为正类

D.实际为正类,模型预测为负类

答案:B

解析:混淆矩阵中,“真正例(TP)”定义为实际类别为正类且模型预测为正类的样本;A为真负例(TN),C为假正例(FP),D为假负例(FN)。

以下哪项属于特征工程中的“特征缩放”操作?

A.对类别特征进行独热编码

B.计算两个连续特征的乘积作为新特征

C.将年龄特征从“岁”转换为“0-1”标准化值

D.使用卡方检验筛选与目标变量相关的特征

答案:C

解析:特征缩放的目的是消除特征间量纲差异,常见方法包括标准化(Z-score)和归一化(Min-Max)。C选项是标准化操作;A属于特征编码,B属于特征构造,D属于特征选择。

模型在训练集上表现很好但在测试集上表现差,最可能的原因是?

A.模型欠拟合

B.数据存在缺失值

C.模型过拟合

D.学习率设置过低

答案:C

解析:过拟合的典型表现是模型对训练数据过度学习(甚至记忆噪声),导致泛化能力差(测试集性能下降);欠拟合表现为训练集和测试集性能均差,数据缺失和学习率过低通常影响训练效率而非泛化差异。

数据清洗中处理缺失值的常用方法不包括?

A.删除包含缺失值的记录

B.用特征均值填充缺失值

C.保留缺失值并标记为特殊值

D.直接忽略缺失值继续建模

答案:D

解析:直接忽略缺失值可能导致模型输入不完整(如算法无法处理NaN)或引入偏差(缺失值可能隐含信息);A、B、C均为合理的缺失值处理方法。

以下属于监督学习任务的是?

A.客户分群(聚类)

B.预测房价(回归)

C.关联规则挖掘(Apriori)

D.降维(PCA)

答案:B

解析:监督学习需要标注的训练数据(特征+标签),回归任务(如预测房价)的标签是连续值,属于监督学习;聚类、关联规则、降维均为无监督学习(无标签)。

贝叶斯定理主要用于解决以下哪类问题?

A.基于历史数据的概率推理

B.高维数据的降维

C.非线性分类的最大间隔划分

D.近邻样本的相似性计算

答案:A

解析:贝叶斯定理通过先验概率和似然度计算后验概率(P(A|B)=P(B|A)P(A)/P(B)),常用于概率推理(如垃圾邮件分类);B是PCA,C是SVM,D是KNN。

Hadoop分布式计算框架的核心组件是?

A.Hive和HBase

B.HDFS和MapReduce

C.Spark和Flink

D.Zookeeper和Kafka

答案:B

解析:Hadoop的核心是HDFS(分布式文件系统)和MapReduce(分布式计算模型);Hive是数据仓库工具,Spark是独立计算框架,Zookeeper用于协调,Kafka是消息队列。

决策树分裂时,“信息增益”指标用于衡量?

A.特征与目标变量的线性相关性

B.分裂后数据纯度的提升程度

C.模型的泛化误差

D.样本的类别分布均衡性

答案:B

解析:信息增益(InformationGain)通过比较分裂前后的信息熵(数据混乱度),衡量分裂对数据纯度的提升;线性相关性用相关系数,泛化误差用测试集评估,类别均衡性用基尼系数或熵本身。

K-means聚类算法的停止条件通常不包括?

A.质心位置不再显著变化

B.达到最大迭代次数

C.所有样本的簇分配不再变化

D.误差平方和(SSE)达到最小值

答案:D

解析:K-means的停止条件通常是质心稳定(A)、迭代次数上限(B)或样本簇分配稳定(C);SSE理论上无法保证达到全局最小(可能陷入局部最优),因此不作为停止条件。

L2正则化(岭回归)的主要作用是?

A.减少模型的偏差

B.增加模型的复杂度

C.防止过拟合,降低方差

D.处理数据中的多重共线性

答案:C

解析:L2正则化通过在损失函数中添加权重的平方和惩罚项(λ||w||2),限制模型参数的大小,从而降低模型复杂度,防止过拟合(降低方差);处理多重共线性是副作用,减少偏差需要更复杂模型。

二、多项选择题(共10题,每题2分,共20分)

数据预处理阶段通常包括以下哪些步骤?()

A.数据清洗(处理缺失值、异常值)

B.数据集成(多源数据合并)

C.数据可视化(探索分布特征)

D.数据规约(降维或采样)

答案:ABD

解析:数据预处理是建模前的准备工作,包括清洗(A)、集成(B)、变换(如标准化)、规约(D);可视化(C)属于探索性数据分析(EDA),是独立阶段。

以下属于特征选择方法的有?()

A.主成分分析(PCA)

B.卡方检验(

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档