2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0118）.docxVIP

下载本文档

0
0
约7.68千字
约 12页
2026-03-15 发布于上海
举报

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0118）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

在分类模型的混淆矩阵中，“真正例（TruePositive）”指的是？

A.实际为负类，模型预测为负类

B.实际为正类，模型预测为正类

C.实际为负类，模型预测为正类

D.实际为正类，模型预测为负类

答案：B

解析：混淆矩阵中，“真正例（TP）”定义为实际类别为正类且模型预测为正类的样本；A为真负例（TN），C为假正例（FP），D为假负例（FN）。

以下哪项属于特征工程中的“特征缩放”操作？

A.对类别特征进行独热编码

B.计算两个连续特征的乘积作为新特征

C.将年龄特征从“岁”转换为“0-1”标准化值

D.使用卡方检验筛选与目标变量相关的特征

答案：C

解析：特征缩放的目的是消除特征间量纲差异，常见方法包括标准化（Z-score）和归一化（Min-Max）。C选项是标准化操作；A属于特征编码，B属于特征构造，D属于特征选择。

模型在训练集上表现很好但在测试集上表现差，最可能的原因是？

A.模型欠拟合

B.数据存在缺失值

C.模型过拟合

D.学习率设置过低

答案：C

解析：过拟合的典型表现是模型对训练数据过度学习（甚至记忆噪声），导致泛化能力差（测试集性能下降）；欠拟合表现为训练集和测试集性能均差，数据缺失和学习率过低通常影响训练效率而非泛化差异。

数据清洗中处理缺失值的常用方法不包括？

A.删除包含缺失值的记录

B.用特征均值填充缺失值

C.保留缺失值并标记为特殊值

D.直接忽略缺失值继续建模

答案：D

解析：直接忽略缺失值可能导致模型输入不完整（如算法无法处理NaN）或引入偏差（缺失值可能隐含信息）；A、B、C均为合理的缺失值处理方法。

以下属于监督学习任务的是？

A.客户分群（聚类）

B.预测房价（回归）

C.关联规则挖掘（Apriori）

D.降维（PCA）

答案：B

解析：监督学习需要标注的训练数据（特征+标签），回归任务（如预测房价）的标签是连续值，属于监督学习；聚类、关联规则、降维均为无监督学习（无标签）。

贝叶斯定理主要用于解决以下哪类问题？

A.基于历史数据的概率推理

B.高维数据的降维

C.非线性分类的最大间隔划分

D.近邻样本的相似性计算

答案：A

解析：贝叶斯定理通过先验概率和似然度计算后验概率（P(A|B)=P(B|A)P(A)/P(B)），常用于概率推理（如垃圾邮件分类）；B是PCA，C是SVM，D是KNN。

Hadoop分布式计算框架的核心组件是？

A.Hive和HBase

B.HDFS和MapReduce

C.Spark和Flink

D.Zookeeper和Kafka

答案：B

解析：Hadoop的核心是HDFS（分布式文件系统）和MapReduce（分布式计算模型）；Hive是数据仓库工具，Spark是独立计算框架，Zookeeper用于协调，Kafka是消息队列。

决策树分裂时，“信息增益”指标用于衡量？

A.特征与目标变量的线性相关性

B.分裂后数据纯度的提升程度

C.模型的泛化误差

D.样本的类别分布均衡性

答案：B

解析：信息增益（InformationGain）通过比较分裂前后的信息熵（数据混乱度），衡量分裂对数据纯度的提升；线性相关性用相关系数，泛化误差用测试集评估，类别均衡性用基尼系数或熵本身。

K-means聚类算法的停止条件通常不包括？

A.质心位置不再显著变化

B.达到最大迭代次数

C.所有样本的簇分配不再变化

D.误差平方和（SSE）达到最小值

答案：D

解析：K-means的停止条件通常是质心稳定（A）、迭代次数上限（B）或样本簇分配稳定（C）；SSE理论上无法保证达到全局最小（可能陷入局部最优），因此不作为停止条件。

L2正则化（岭回归）的主要作用是？

A.减少模型的偏差

B.增加模型的复杂度

C.防止过拟合，降低方差

D.处理数据中的多重共线性

答案：C

解析：L2正则化通过在损失函数中添加权重的平方和惩罚项（λ||w||2），限制模型参数的大小，从而降低模型复杂度，防止过拟合（降低方差）；处理多重共线性是副作用，减少偏差需要更复杂模型。

二、多项选择题（共10题，每题2分，共20分）

数据预处理阶段通常包括以下哪些步骤？（）

A.数据清洗（处理缺失值、异常值）

B.数据集成（多源数据合并）

C.数据可视化（探索分布特征）

D.数据规约（降维或采样）

答案：ABD

解析：数据预处理是建模前的准备工作，包括清洗（A）、集成（B）、变换（如标准化）、规约（D）；可视化（C）属于探索性数据分析（EDA），是独立阶段。

以下属于特征选择方法的有？（）

A.主成分分析（PCA）

B.卡方检验（

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0118）.docxVIP