2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0127).docxVIP

  • 0
  • 0
  • 约7.5千字
  • 约 11页
  • 2026-03-16 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0127).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

数据清洗中处理小比例(5%)完全随机缺失的数值型数据,最合理的方法是?

A.用均值填充

B.用中位数填充

C.删除对应行

D.用众数填充

答案:C

解析:当缺失数据比例较小(5%)且符合完全随机缺失(MCAR)假设时,直接删除缺失行对整体数据分布影响最小,能保持数据真实性;均值或中位数填充可能引入人为偏差(A/B错误);众数适用于分类型数据填充(D错误)。

以下哪种算法属于监督学习?

A.K-means

B.PCA

C.SVM(支持向量机)

D.DBSCAN

答案:C

解析:监督学习需要标注的训练数据(标签),SVM通过样本特征和标签学习分类边界(正确);K-means(聚类)、DBSCAN(密度聚类)属于无监督学习(A/D错误);PCA(主成分分析)是无监督降维方法(B错误)。

中心极限定理(CLT)的核心结论是?

A.样本均值的分布趋近于均匀分布

B.样本方差的分布趋近于正态分布

C.无论总体分布如何,大样本均值的分布近似正态分布

D.总体必须服从正态分布才能应用CLT

答案:C

解析:中心极限定理指出,当样本量足够大时,样本均值的抽样分布近似服从正态分布,与总体原始分布无关(C正确);样本均值趋近正态而非均匀(A错误);方差的分布与卡方分布相关(B错误);CLT不要求总体正态(D错误)。

以下哪项是Hadoop生态中用于分布式计算的框架?

A.HDFS

B.HBase

C.Spark

D.Hive

答案:C

解析:Spark是基于内存的分布式计算框架(正确);HDFS是分布式文件系统(A错误);HBase是分布式数据库(B错误);Hive是数据仓库工具(D错误)。

在机器学习中,L2正则化的主要作用是?

A.防止欠拟合

B.减少模型复杂度,防止过拟合

C.提高模型训练速度

D.增强模型对类别不平衡数据的鲁棒性

答案:B

解析:L2正则化通过向损失函数添加权重平方和的惩罚项,限制模型参数大小,减少过拟合风险(B正确);防止欠拟合需增加模型复杂度(A错误);训练速度与优化算法相关(C错误);类别不平衡通常用SMOTE或调整类别权重解决(D错误)。

以下哪种数据类型不适合用箱线图(BoxPlot)展示?

A.连续型数值数据的分布

B.不同类别间的数值比较

C.时间序列数据的趋势

D.异常值的检测

答案:C

解析:箱线图用于展示数据分布、类别比较及异常值检测(A/B/D正确);时间序列趋势需用折线图或面积图(C错误)。

在SQL中,用于返回两个表交集的关键字是?

A.INTERSECT

B.UNION

C.JOIN

D.EXCEPT

答案:A

解析:INTERSECT返回两个表共有的行(正确);UNION合并去重(B错误);JOIN按条件关联(C错误);EXCEPT返回第一个表有、第二个表无的行(D错误)。

以下哪项是决策树过拟合的典型表现?

A.训练集准确率低,测试集准确率高

B.训练集准确率高,测试集准确率低

C.训练集和测试集准确率均低

D.训练集和测试集准确率相近

答案:B

解析:过拟合表现为模型在训练数据上过度学习噪声,导致训练准确率高但泛化能力差(测试准确率低,B正确);欠拟合则训练和测试准确率均低(C错误);A/D为正常或欠拟合表现(A/D错误)}

以下哪种指标适用于评估回归模型的预测误差?

A.准确率(Accuracy)

B.F1分数

C.均方误差(MSE)

D.ROC-AUC

答案:C

解析:回归模型评估常用MSE(均方误差)、MAE(平均绝对误差)等(C正确);准确率、F1、ROC-AUC用于分类任务(A/B/D错误)。

以下哪项不属于非结构化数据?

A.社交媒体文本

B.Excel表格

C.监控视频

D.音频文件

答案:B

解析:非结构化数据无固定格式(文本、音视频),Excel表格是结构化数据(行列存储,B正确);A/C/D均为非结构化(错误)。

二、多项选择题(共10题,每题2分,共20分)

特征工程中常用的特征提取方法包括?

A.独热编码(One-HotEncoding)

B.PCA(主成分分析)

C.分箱处理(Binning)

D.词袋模型(BagofWords)

答案:BD

解析:特征提取是从原始数据中生成新特征(如PCA降维生成主成分,词袋模型将文本转为向量);独热编码(A)和分箱(C)属于特征构造/转换,用于处理分类型或连续型数据(干扰项)。

以下哪些是机器学习中常用的分类模型评估指标?

A.准确率(Accuracy)

B.F1分数

C.均方误差(MSE)

D.ROC-AUC

答案:ABD

解析:分类评估指

文档评论(0)

1亿VIP精品文档

相关文档