2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1230).docxVIP

  • 0
  • 0
  • 约7.41千字
  • 约 12页
  • 2026-02-05 发布于江苏
  • 举报

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1230).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是处理数据集中小比例缺失值(5%)的最佳策略?

A.用特征均值填充缺失值

B.删除包含缺失值的记录

C.直接输入模型训练(忽略缺失值)

D.用相邻记录的中位数填充

答案:B

解析:当缺失值比例较小时(通常5%),直接删除缺失记录对数据集整体分布影响最小(B正确)。A选项适用于数值型特征但可能引入偏差;C选项会导致模型报错或异常;D选项适用于时间序列等有序数据,非通用场景(ACD错误)。

在机器学习中,以下哪种算法属于无监督学习?

A.逻辑回归

B.K-means聚类

C.随机森林

D.支持向量机(SVM)

答案:B

解析:无监督学习不依赖标签,K-means通过数据自身特征聚类(B正确)。逻辑回归、随机森林、SVM均需标签训练(ACD错误)。

以下哪项是数据可视化中“误导性图表”的典型特征?

A.坐标轴未从0开始

B.使用渐变色区分类别

C.添加数据标签标注具体数值

D.采用分面图展示多维度数据

答案:A

解析:坐标轴不从0开始可能夸大数据差异(如将y轴起点设为100而非0),导致视觉误导(A正确)。其余选项均为合理可视化方法(BCD错误)。

在SQL中,用于检索满足多个条件的记录的关键字是?

A.GROUPBY

B.HAVING

C.WHERE

D.ORDERBY

答案:C

解析:WHERE子句用于过滤行级数据,支持多条件逻辑运算(C正确)。GROUPBY用于分组,HAVING用于分组后过滤,ORDERBY用于排序(ABD错误)。

以下哪项是衡量分类模型“精确率”(Precision)的公式?

A.TP/(TP+FN)

B.TP/(TP+FP)

C.TN/(TN+FP)

D.(TP+TN)/(TP+TN+FP+FN)

答案:B

解析:精确率是“预测为正的样本中实际为正的比例”,公式为TP/(TP+FP)(B正确)。A是召回率,C是真负率,D是准确率(ACD错误)。

以下哪种场景最适合使用决策树模型?

A.高维稀疏文本数据分类(如垃圾邮件识别)

B.时间序列预测(如股票价格)

C.需要可解释性的医学诊断分类

D.大规模图像识别(如图像分类)

答案:C

解析:决策树的树状结构天然具备可解释性,适合医学诊断等需要透明性的场景(C正确)。高维文本常用逻辑回归或神经网络,时间序列用ARIMA或LSTM,图像识别用CNN(ABD错误)。

以下哪项不属于特征工程中的“特征构造”方法?

A.计算两个数值特征的乘积

B.将连续特征离散化为分箱(Binning)

C.对类别特征进行独热编码(One-HotEncoding)

D.从时间戳中提取“星期几”特征

答案:C

解析:特征构造是生成新特征(如乘积、分箱、时间提取),独热编码是对现有类别特征的转换(C正确)。ABD均为构造新特征(ABD错误)。

在统计假设检验中,“第一类错误”指的是?

A.原假设为真时拒绝原假设(弃真)

B.原假设为假时接受原假设(取伪)

C.备择假设为真时拒绝备择假设

D.备择假设为假时接受备择假设

答案:A

解析:第一类错误(α错误)是“原假设正确但被拒绝”(A正确)。第二类错误(β错误)是原假设错误但被接受(B错误),CD表述不符合假设检验定义(CD错误)。

以下哪种数据存储格式最适合大规模分布式计算(如Spark)?

A.CSV(逗号分隔值)

B.JSON(键值对文本)

C.Parquet(列式存储)

D.TXT(纯文本)

答案:C

解析:Parquet是列式存储格式,支持压缩和谓词下推,适合分布式计算的高效读写(C正确)。CSV、JSON、TXT为行式或非结构化格式,存储和计算效率较低(ABD错误)。

在回归分析中,R2(决定系数)的取值范围是?

A.(-∞,+∞)

B.[0,1]

C.[-1,1]

D.[0,+∞)

答案:B

解析:R2衡量模型对因变量变异的解释比例,取值范围0到1(B正确)。负值表示模型比基准(均值)更差,但实际中通常限制为[0,1](ACD错误)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于数据清洗主要步骤的有?

A.处理缺失值

B.去除重复记录

C.标准化特征尺度(如Z-score)

D.检测并处理异常值

答案:ABD

解析:数据清洗关注数据质量问题,包括缺失值、重复值、异常值处理(ABD正确)。标准化属于特征工程,非清洗步骤(C错误)。

以下哪些算法可用于降维?

A.主成分分析(PCA)

B.线性判别分析(LDA)

C.t-分布随机邻域嵌入(t-SNE)

D.卡方检验(Chi-squareTes

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档