2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1221）.docxVIP

下载本文档

1
0
约7.61千字
约 11页
2026-01-08 发布于上海
举报

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1221）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

混淆矩阵中“假阳性（FalsePositive）”指的是？

A.实际为正类，模型预测为正类

B.实际为负类，模型预测为正类

C.实际为正类，模型预测为负类

D.实际为负类，模型预测为负类

答案：B

解析：混淆矩阵中，行代表实际类别，列代表预测类别。假阳性（FP）是实际为负类（行=负）但预测为正类（列=正）的情况，对应选项B。A为真阳性（TP），C为假阴性（FN），D为真阴性（TN）。

以下哪种情况最可能导致模型过拟合？

A.训练数据量过大

B.特征数量远多于样本量

C.使用简单的线性模型

D.对数据进行标准化处理

答案：B

解析：过拟合的核心原因是模型复杂度超过数据复杂度。当特征数量远多于样本量时（如高维小样本），模型容易记住训练数据中的噪声，导致泛化能力差（过拟合）。A会缓解过拟合，C和D与过拟合无直接负相关。

数据标准化（Z-score标准化）的主要目的是？

A.使数据服从均匀分布

B.消除特征量纲差异对模型的影响

C.增加数据的离散程度

D.减少数据中的缺失值

答案：B

解析：标准化通过（x-μ）/σ将特征缩放到均值为0、标准差为1的分布，主要解决不同特征因量纲（如“身高cm”与“体重kg”）差异导致的模型训练偏差（如梯度下降受大数值特征主导）。A错误，标准化后数据分布形态不变；C和D与标准化无关。

决策树中使用“信息增益”作为分裂标准时，更倾向于选择以下哪种特征？

A.取值种类少的特征

B.取值种类多的特征

C.与目标变量无关的特征

D.连续型特征

答案：B

解析：信息增益的计算涉及熵的减少量。取值种类多的特征（如ID类特征）会将数据划分为更多子集，导致每个子集的熵更低（趋近于0），从而信息增益更大。因此决策树倾向于选择这类特征（可能引发过拟合）。A的信息增益较小，C无增益，D需离散化后计算。

以下属于过滤法（Filter）特征选择的方法是？

A.递归特征消除（RFE）

B.卡方检验

C.基于模型的特征重要性排序

D.主成分分析（PCA）

答案：B

解析：过滤法通过统计量（如卡方检验、相关系数）衡量特征与目标变量的相关性，独立于模型训练。A和C属于包裹法（Wrapper），依赖模型性能；D是降维方法，非特征选择。

岭回归（RidgeRegression）的正则化项是？

A.L1范数

B.L2范数

C.交叉熵损失

D.均方误差

答案：B

解析：岭回归通过添加L2正则项（λ||w||2）防止系数过大，缓解多重共线性和过拟合；L1正则对应Lasso回归（A错误）。C是分类模型损失函数，D是普通线性回归的损失函数。

K-means聚类算法对以下哪项最敏感？

A.初始聚类中心的选择

B.数据的分布形态（如是否凸形）

C.样本的顺序

D.特征的命名

答案：A

解析：K-means的结果受初始聚类中心影响大（可能陷入局部最优），通常需多次运行取最优。B是DBSCAN等算法的敏感点；C和D不影响聚类结果。

朴素贝叶斯分类器的“朴素”假设是？

A.特征之间相互独立

B.数据服从正态分布

C.类别先验概率相等

D.特征与目标变量线性相关

答案：A

解析：朴素贝叶斯假设各特征在给定类别下条件独立（即P(x1,x2|y)=P(x1|y)P(x2|y)），简化了联合概率计算。其他选项均非其核心假设。

数据仓库（DataWarehouse）与数据库（Database）的核心区别是？

A.数据仓库支持事务处理（OLTP），数据库支持分析处理（OLAP）

B.数据仓库存储结构化数据，数据库存储非结构化数据

C.数据仓库面向主题，数据库面向业务过程

D.数据仓库实时更新，数据库定期更新

答案：C

解析：数据仓库是面向主题（如“用户分析”）、集成、非易失、随时间变化的数据集合，支持OLAP；数据库面向业务过程（如“订单交易”），支持OLTP（A错误）。两者均以结构化数据为主（B错误），数据仓库更新频率低（D错误）。

A/B测试的关键假设是？

A.实验组与对照组样本量相同

B.两组用户特征分布无显著差异

C.测试周期越长越好

D.仅需关注单一指标

答案：B

解析：A/B测试的核心是通过随机分组确保两组用户的特征分布一致（无选择偏差），从而将指标差异归因于实验变量。样本量可不同（A错误），测试周期需足够（但非越长越好，C错误），需关注多维度指标（D错误）。

二、多项选择题（共10题，每题2分，共20分）

以下属于特征工程的常用方法有？（）

A.缺失值填充

B.类别特征独热编码（One-HotEncoding）

C.特征交叉（FeatureCross）

D.主成分分析（PCA）

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1221）.docxVIP