2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1228).docxVIP

  • 0
  • 0
  • 约6.72千字
  • 约 10页
  • 2026-01-27 发布于上海
  • 举报

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1228).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是数据清洗中处理缺失值的常用方法?

A.主成分分析(PCA)

B.用特征均值填充

C.绘制箱线图

D.计算皮尔逊相关系数

答案:B

解析:数据清洗中处理缺失值的常用方法包括删除缺失行、用均值/中位数/众数填充、插值法等(B正确)。PCA是降维方法(A错误),箱线图用于异常值检测(C错误),皮尔逊相关系数用于衡量变量相关性(D错误)。

在监督学习中,“标签”指的是?

A.输入特征的名称

B.模型输出的预测结果

C.训练数据中的目标变量

D.用于正则化的参数

答案:C

解析:监督学习需要“特征-标签”对,标签是训练数据中的目标变量(如分类问题的类别、回归问题的连续值)(C正确)。输入特征名称是特征标识(A错误),预测结果是模型输出(B错误),正则化参数是模型超参数(D错误)。

以下哪项属于非参数统计方法?

A.t检验

B.卡方检验

C.线性回归

D.方差分析(ANOVA)

答案:B

解析:非参数方法不假设数据服从特定分布,卡方检验用于分类变量的独立性检验(B正确)。t检验、线性回归、ANOVA均假设数据服从正态分布(A、C、D错误)。

以下哪种场景最适合使用K近邻(KNN)算法?

A.大规模高维数据集分类

B.小样本低维数据集分类

C.时间序列预测

D.文本情感分析

答案:B

解析:KNN计算复杂度高(与样本量和维度正相关),适合小样本低维数据(B正确)。大规模高维数据会导致“维度灾难”(A错误),时间序列常用ARIMA(C错误),文本分析常用TF-IDF+分类器(D错误)。

以下哪项是SQL中用于分组统计的关键字?

A.WHERE

B.HAVING

C.GROUPBY

D.ORDERBY

答案:C

解析:GROUPBY用于按某列分组,配合聚合函数(如COUNT、AVG)进行统计(C正确)。WHERE是行过滤(A错误),HAVING是分组后的过滤(B错误),ORDERBY是排序(D错误)。

在混淆矩阵中,“假阳性(FalsePositive)”指的是?

A.实际为正类,预测为正类

B.实际为正类,预测为负类

C.实际为负类,预测为正类

D.实际为负类,预测为负类

答案:C

解析:混淆矩阵中,行是真实标签,列是预测标签。假阳性(FP)是真实负类被预测为正类(C正确)。A是TP,B是FN,D是TN(均错误)。

以下哪项是数据可视化中“分箱(Binning)”的主要目的?

A.减少数据维度

B.处理异常值

C.展示连续变量的分布

D.提高模型泛化能力

答案:C

解析:分箱将连续变量离散化为区间(如年龄分箱为“0-18”“19-30”等),用于展示分布或简化分析(C正确)。降维用PCA(A错误),处理异常值用截断或转换(B错误),提高泛化能力靠正则化(D错误)。

以下哪种机器学习算法属于集成学习?

A.逻辑回归

B.支持向量机(SVM)

C.随机森林(RandomForest)

D.K-means

答案:C

解析:集成学习通过组合多个基模型提高性能,随机森林是多个决策树的集成(C正确)。逻辑回归、SVM是单模型(A、B错误),K-means是聚类算法(D错误)。

以下哪项是数据标准化(Z-score标准化)的公式?

A.(x’=)

B.(x’=)

C.(x’=(x))

D.(x’=x)

答案:B

解析:Z-score标准化将数据转换为均值0、标准差1的分布,公式为((x-)/)(B正确)。A是归一化(Min-Max),C是对数变换,D是加权(均错误)。

以下哪项是时间序列数据的典型特征?

A.数据点之间独立同分布(i.i.d.)

B.存在自相关性(Autocorrelation)

C.所有变量均为分类变量

D.样本量远大于特征数

答案:B

解析:时间序列数据的核心特征是相邻时间点的数据存在相关性(自相关)(B正确)。独立同分布是传统机器学习假设(A错误),时间序列可能包含连续变量(C错误),样本量与特征数关系不固定(D错误)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于数据预处理步骤的有?

A.缺失值填充

B.特征编码(如独热编码)

C.模型超参数调优

D.异常值检测与处理

答案:ABD

解析:数据预处理包括清洗(缺失值、异常值)、转换(编码、标准化)等(A、B、D正确)。超参数调优属于模型训练阶段(C错误)。

以下哪些指标可用于评估回归模型性能?

A.均方误差(MSE)

B.R平方(R2)

C.F1分数

D.平均绝对误差(MAE)

答案:ABD

解析:回归模型评估指

文档评论(0)

1亿VIP精品文档

相关文档