2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1228）.docxVIP

下载本文档

0
0
约6.72千字
约 10页
2026-01-27 发布于上海
举报

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1228）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是数据清洗中处理缺失值的常用方法？

A.主成分分析（PCA）

B.用特征均值填充

C.绘制箱线图

D.计算皮尔逊相关系数

答案：B

解析：数据清洗中处理缺失值的常用方法包括删除缺失行、用均值/中位数/众数填充、插值法等（B正确）。PCA是降维方法（A错误），箱线图用于异常值检测（C错误），皮尔逊相关系数用于衡量变量相关性（D错误）。

在监督学习中，“标签”指的是？

A.输入特征的名称

B.模型输出的预测结果

C.训练数据中的目标变量

D.用于正则化的参数

答案：C

解析：监督学习需要“特征-标签”对，标签是训练数据中的目标变量（如分类问题的类别、回归问题的连续值）（C正确）。输入特征名称是特征标识（A错误），预测结果是模型输出（B错误），正则化参数是模型超参数（D错误）。

以下哪项属于非参数统计方法？

A.t检验

B.卡方检验

C.线性回归

D.方差分析（ANOVA）

答案：B

解析：非参数方法不假设数据服从特定分布，卡方检验用于分类变量的独立性检验（B正确）。t检验、线性回归、ANOVA均假设数据服从正态分布（A、C、D错误）。

以下哪种场景最适合使用K近邻（KNN）算法？

A.大规模高维数据集分类

B.小样本低维数据集分类

C.时间序列预测

D.文本情感分析

答案：B

解析：KNN计算复杂度高（与样本量和维度正相关），适合小样本低维数据（B正确）。大规模高维数据会导致“维度灾难”（A错误），时间序列常用ARIMA（C错误），文本分析常用TF-IDF+分类器（D错误）。

以下哪项是SQL中用于分组统计的关键字？

A.WHERE

B.HAVING

C.GROUPBY

D.ORDERBY

答案：C

解析：GROUPBY用于按某列分组，配合聚合函数（如COUNT、AVG）进行统计（C正确）。WHERE是行过滤（A错误），HAVING是分组后的过滤（B错误），ORDERBY是排序（D错误）。

在混淆矩阵中，“假阳性（FalsePositive）”指的是？

A.实际为正类，预测为正类

B.实际为正类，预测为负类

C.实际为负类，预测为正类

D.实际为负类，预测为负类

答案：C

解析：混淆矩阵中，行是真实标签，列是预测标签。假阳性（FP）是真实负类被预测为正类（C正确）。A是TP，B是FN，D是TN（均错误）。

以下哪项是数据可视化中“分箱（Binning）”的主要目的？

A.减少数据维度

B.处理异常值

C.展示连续变量的分布

D.提高模型泛化能力

答案：C

解析：分箱将连续变量离散化为区间（如年龄分箱为“0-18”“19-30”等），用于展示分布或简化分析（C正确）。降维用PCA（A错误），处理异常值用截断或转换（B错误），提高泛化能力靠正则化（D错误）。

以下哪种机器学习算法属于集成学习？

A.逻辑回归

B.支持向量机（SVM）

C.随机森林（RandomForest）

D.K-means

答案：C

解析：集成学习通过组合多个基模型提高性能，随机森林是多个决策树的集成（C正确）。逻辑回归、SVM是单模型（A、B错误），K-means是聚类算法（D错误）。

以下哪项是数据标准化（Z-score标准化）的公式？

A.(x’=)

B.(x’=)

C.(x’=(x))

D.(x’=x)

答案：B

解析：Z-score标准化将数据转换为均值0、标准差1的分布，公式为((x-)/)（B正确）。A是归一化（Min-Max），C是对数变换，D是加权（均错误）。

以下哪项是时间序列数据的典型特征？

A.数据点之间独立同分布（i.i.d.）

B.存在自相关性（Autocorrelation）

C.所有变量均为分类变量

D.样本量远大于特征数

答案：B

解析：时间序列数据的核心特征是相邻时间点的数据存在相关性（自相关）（B正确）。独立同分布是传统机器学习假设（A错误），时间序列可能包含连续变量（C错误），样本量与特征数关系不固定（D错误）。

二、多项选择题（共10题，每题2分，共20分）（每题至少2个正确选项）

以下属于数据预处理步骤的有？

A.缺失值填充

B.特征编码（如独热编码）

C.模型超参数调优

D.异常值检测与处理

答案：ABD

解析：数据预处理包括清洗（缺失值、异常值）、转换（编码、标准化）等（A、B、D正确）。超参数调优属于模型训练阶段（C错误）。

以下哪些指标可用于评估回归模型性能？

A.均方误差（MSE）

B.R平方（R2）

C.F1分数

D.平均绝对误差（MAE）

答案：ABD

解析：回归模型评估指

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1228）.docxVIP