2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1221).docxVIP

  • 1
  • 0
  • 约7.61千字
  • 约 11页
  • 2026-01-08 发布于上海
  • 举报

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1221).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

混淆矩阵中“假阳性(FalsePositive)”指的是?

A.实际为正类,模型预测为正类

B.实际为负类,模型预测为正类

C.实际为正类,模型预测为负类

D.实际为负类,模型预测为负类

答案:B

解析:混淆矩阵中,行代表实际类别,列代表预测类别。假阳性(FP)是实际为负类(行=负)但预测为正类(列=正)的情况,对应选项B。A为真阳性(TP),C为假阴性(FN),D为真阴性(TN)。

以下哪种情况最可能导致模型过拟合?

A.训练数据量过大

B.特征数量远多于样本量

C.使用简单的线性模型

D.对数据进行标准化处理

答案:B

解析:过拟合的核心原因是模型复杂度超过数据复杂度。当特征数量远多于样本量时(如高维小样本),模型容易记住训练数据中的噪声,导致泛化能力差(过拟合)。A会缓解过拟合,C和D与过拟合无直接负相关。

数据标准化(Z-score标准化)的主要目的是?

A.使数据服从均匀分布

B.消除特征量纲差异对模型的影响

C.增加数据的离散程度

D.减少数据中的缺失值

答案:B

解析:标准化通过(x-μ)/σ将特征缩放到均值为0、标准差为1的分布,主要解决不同特征因量纲(如“身高cm”与“体重kg”)差异导致的模型训练偏差(如梯度下降受大数值特征主导)。A错误,标准化后数据分布形态不变;C和D与标准化无关。

决策树中使用“信息增益”作为分裂标准时,更倾向于选择以下哪种特征?

A.取值种类少的特征

B.取值种类多的特征

C.与目标变量无关的特征

D.连续型特征

答案:B

解析:信息增益的计算涉及熵的减少量。取值种类多的特征(如ID类特征)会将数据划分为更多子集,导致每个子集的熵更低(趋近于0),从而信息增益更大。因此决策树倾向于选择这类特征(可能引发过拟合)。A的信息增益较小,C无增益,D需离散化后计算。

以下属于过滤法(Filter)特征选择的方法是?

A.递归特征消除(RFE)

B.卡方检验

C.基于模型的特征重要性排序

D.主成分分析(PCA)

答案:B

解析:过滤法通过统计量(如卡方检验、相关系数)衡量特征与目标变量的相关性,独立于模型训练。A和C属于包裹法(Wrapper),依赖模型性能;D是降维方法,非特征选择。

岭回归(RidgeRegression)的正则化项是?

A.L1范数

B.L2范数

C.交叉熵损失

D.均方误差

答案:B

解析:岭回归通过添加L2正则项(λ||w||2)防止系数过大,缓解多重共线性和过拟合;L1正则对应Lasso回归(A错误)。C是分类模型损失函数,D是普通线性回归的损失函数。

K-means聚类算法对以下哪项最敏感?

A.初始聚类中心的选择

B.数据的分布形态(如是否凸形)

C.样本的顺序

D.特征的命名

答案:A

解析:K-means的结果受初始聚类中心影响大(可能陷入局部最优),通常需多次运行取最优。B是DBSCAN等算法的敏感点;C和D不影响聚类结果。

朴素贝叶斯分类器的“朴素”假设是?

A.特征之间相互独立

B.数据服从正态分布

C.类别先验概率相等

D.特征与目标变量线性相关

答案:A

解析:朴素贝叶斯假设各特征在给定类别下条件独立(即P(x1,x2|y)=P(x1|y)P(x2|y)),简化了联合概率计算。其他选项均非其核心假设。

数据仓库(DataWarehouse)与数据库(Database)的核心区别是?

A.数据仓库支持事务处理(OLTP),数据库支持分析处理(OLAP)

B.数据仓库存储结构化数据,数据库存储非结构化数据

C.数据仓库面向主题,数据库面向业务过程

D.数据仓库实时更新,数据库定期更新

答案:C

解析:数据仓库是面向主题(如“用户分析”)、集成、非易失、随时间变化的数据集合,支持OLAP;数据库面向业务过程(如“订单交易”),支持OLTP(A错误)。两者均以结构化数据为主(B错误),数据仓库更新频率低(D错误)。

A/B测试的关键假设是?

A.实验组与对照组样本量相同

B.两组用户特征分布无显著差异

C.测试周期越长越好

D.仅需关注单一指标

答案:B

解析:A/B测试的核心是通过随机分组确保两组用户的特征分布一致(无选择偏差),从而将指标差异归因于实验变量。样本量可不同(A错误),测试周期需足够(但非越长越好,C错误),需关注多维度指标(D错误)。

二、多项选择题(共10题,每题2分,共20分)

以下属于特征工程的常用方法有?()

A.缺失值填充

B.类别特征独热编码(One-HotEncoding)

C.特征交叉(FeatureCross)

D.主成分分析(PCA)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档