2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0127）.docxVIP

下载本文档

0
0
约7.5千字
约 11页
2026-03-16 发布于上海
举报

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0127）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

数据清洗中处理小比例（5%）完全随机缺失的数值型数据，最合理的方法是？

A.用均值填充

B.用中位数填充

C.删除对应行

D.用众数填充

答案：C

解析：当缺失数据比例较小（5%）且符合完全随机缺失（MCAR）假设时，直接删除缺失行对整体数据分布影响最小，能保持数据真实性；均值或中位数填充可能引入人为偏差（A/B错误）；众数适用于分类型数据填充（D错误）。

以下哪种算法属于监督学习？

A.K-means

B.PCA

C.SVM（支持向量机）

D.DBSCAN

答案：C

解析：监督学习需要标注的训练数据（标签），SVM通过样本特征和标签学习分类边界（正确）；K-means（聚类）、DBSCAN（密度聚类）属于无监督学习（A/D错误）；PCA（主成分分析）是无监督降维方法（B错误）。

中心极限定理（CLT）的核心结论是？

A.样本均值的分布趋近于均匀分布

B.样本方差的分布趋近于正态分布

C.无论总体分布如何，大样本均值的分布近似正态分布

D.总体必须服从正态分布才能应用CLT

答案：C

解析：中心极限定理指出，当样本量足够大时，样本均值的抽样分布近似服从正态分布，与总体原始分布无关（C正确）；样本均值趋近正态而非均匀（A错误）；方差的分布与卡方分布相关（B错误）；CLT不要求总体正态（D错误）。

以下哪项是Hadoop生态中用于分布式计算的框架？

A.HDFS

B.HBase

C.Spark

D.Hive

答案：C

解析：Spark是基于内存的分布式计算框架（正确）；HDFS是分布式文件系统（A错误）；HBase是分布式数据库（B错误）；Hive是数据仓库工具（D错误）。

在机器学习中，L2正则化的主要作用是？

A.防止欠拟合

B.减少模型复杂度，防止过拟合

C.提高模型训练速度

D.增强模型对类别不平衡数据的鲁棒性

答案：B

解析：L2正则化通过向损失函数添加权重平方和的惩罚项，限制模型参数大小，减少过拟合风险（B正确）；防止欠拟合需增加模型复杂度（A错误）；训练速度与优化算法相关（C错误）；类别不平衡通常用SMOTE或调整类别权重解决（D错误）。

以下哪种数据类型不适合用箱线图（BoxPlot）展示？

A.连续型数值数据的分布

B.不同类别间的数值比较

C.时间序列数据的趋势

D.异常值的检测

答案：C

解析：箱线图用于展示数据分布、类别比较及异常值检测（A/B/D正确）；时间序列趋势需用折线图或面积图（C错误）。

在SQL中，用于返回两个表交集的关键字是？

A.INTERSECT

B.UNION

C.JOIN

D.EXCEPT

答案：A

解析：INTERSECT返回两个表共有的行（正确）；UNION合并去重（B错误）；JOIN按条件关联（C错误）；EXCEPT返回第一个表有、第二个表无的行（D错误）。

以下哪项是决策树过拟合的典型表现？

A.训练集准确率低，测试集准确率高

B.训练集准确率高，测试集准确率低

C.训练集和测试集准确率均低

D.训练集和测试集准确率相近

答案：B

解析：过拟合表现为模型在训练数据上过度学习噪声，导致训练准确率高但泛化能力差（测试准确率低，B正确）；欠拟合则训练和测试准确率均低（C错误）；A/D为正常或欠拟合表现（A/D错误）}

以下哪种指标适用于评估回归模型的预测误差？

A.准确率（Accuracy）

B.F1分数

C.均方误差（MSE）

D.ROC-AUC

答案：C

解析：回归模型评估常用MSE（均方误差）、MAE（平均绝对误差）等（C正确）；准确率、F1、ROC-AUC用于分类任务（A/B/D错误）。

以下哪项不属于非结构化数据？

A.社交媒体文本

B.Excel表格

C.监控视频

D.音频文件

答案：B

解析：非结构化数据无固定格式（文本、音视频），Excel表格是结构化数据（行列存储，B正确）；A/C/D均为非结构化（错误）。

二、多项选择题（共10题，每题2分，共20分）

特征工程中常用的特征提取方法包括？

A.独热编码（One-HotEncoding）

B.PCA（主成分分析）

C.分箱处理（Binning）

D.词袋模型（BagofWords）

答案：BD

解析：特征提取是从原始数据中生成新特征（如PCA降维生成主成分，词袋模型将文本转为向量）；独热编码（A）和分箱（C）属于特征构造/转换，用于处理分类型或连续型数据（干扰项）。

以下哪些是机器学习中常用的分类模型评估指标？

A.准确率（Accuracy）

B.F1分数

C.均方误差（MSE）

D.ROC-AUC

答案：ABD

解析：分类评估指

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0127）.docxVIP