2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0102).docxVIP

  • 0
  • 0
  • 约7.47千字
  • 约 10页
  • 2026-01-28 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0102).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是数据清洗中处理缺失值的常用方法?

A.对缺失列直接删除

B.用该列均值填充所有缺失值

C.基于其他特征构建模型预测缺失值

D.将缺失值标记为“未知”后直接建模

答案:C

解析:数据清洗中处理缺失值的方法需根据场景选择。A错误,直接删除列可能丢失关键信息;B错误,简单均值填充可能破坏数据分布(如分类变量);C正确,模型预测法(如KNN填充、回归填充)能更合理利用数据关联;D错误,未处理的缺失值可能导致模型错误(如树模型可处理,但多数算法要求无缺失)。

在混淆矩阵中,精确率(Precision)的计算公式是?

A.TP/(TP+FN)

B.TP/(TP+FP)

C.TN/(TN+FP)

D.(TP+TN)/(TP+TN+FP+FN)

答案:B

解析:精确率衡量“预测为正类中实际为正类的比例”。A是召回率(Recall);C是真负率(Specificity);D是准确率(Accuracy);B正确。

以下哪种算法属于无监督学习?

A.逻辑回归

B.K均值聚类

C.随机森林

D.支持向量机(SVM)

答案:B

解析:无监督学习无标签数据。A、C、D均需标签训练(分类/回归),属于监督学习;B通过数据自身特征聚类,无标签,正确。

特征工程中,“将年龄划分为青年/中年/老年”属于?

A.特征标准化

B.特征分箱

C.特征降维

D.特征交叉

答案:B

解析:特征分箱(Binning)是将连续变量离散化。A是归一化到标准正态分布;C是减少特征数量(如PCA);D是组合多个特征(如年龄×收入);B正确。

以下哪项是Hadoop分布式文件系统(HDFS)的核心设计目标?

A.支持低延迟数据访问

B.处理海量结构化数据

C.运行在普通商用硬件上

D.提供实时计算能力

答案:C

解析:HDFS设计目标是可靠存储海量数据,运行于低成本商用硬件(C正确)。A错误(HDFS适合批量处理,非低延迟);B错误(HDFS不区分结构化/非结构化);D错误(实时计算由SparkStreaming等实现)。

在假设检验中,显著性水平α表示?

A.原假设为真时拒绝原假设的概率

B.原假设为假时接受原假设的概率

C.备择假设为真时接受备择假设的概率

D.备择假设为假时拒绝备择假设的概率

答案:A

解析:α是第一类错误(弃真错误)的概率,即原假设为真时错误拒绝的概率(A正确)。B是第二类错误(取伪错误)概率β;C是检验功效(1-β);D无此定义。

以下哪种可视化工具主要用于交互式动态图表?

A.Matplotlib

B.Seaborn

C.Tableau

D.Plotly

答案:D

解析:Plotly支持交互式动态图表(如悬停提示、缩放)。A、B是静态图表库;C是商业BI工具(侧重仪表盘);D正确。

机器学习中,“过拟合”的主要原因是?

A.模型复杂度不足

B.训练数据量过大

C.特征数量远大于样本量

D.学习率设置过小

答案:C

解析:过拟合是模型过度拟合训练数据噪声。A导致欠拟合;B通常缓解过拟合;C(高维小样本)易导致模型记忆噪声(正确);D影响收敛速度,非过拟合主因。

以下哪项是时间序列分析中“平稳性”的关键要求?

A.均值、方差、协方差不随时间变化

B.数据必须为等间隔采样

C.存在明显的趋势或季节性

D.自相关系数随滞后阶数增加单调递减

答案:A

解析:平稳时间序列的统计特性(均值、方差、协方差)不随时间平移改变(A正确)。B是时间序列基本要求(非平稳性特有);C是非平稳的表现;D无此要求。

数据科学项目中,“业务理解”阶段的核心任务是?

A.清洗和预处理数据

B.明确问题目标与成功指标

C.选择机器学习算法

D.生成可视化报告

答案:B

解析:CRISP-DM方法论中,业务理解阶段需明确需求、定义目标(如“提升用户转化率20%”)及评估指标(B正确)。A是数据理解/准备阶段;C是建模阶段;D是结果发布阶段。

二、多项选择题(共10题,每题2分,共20分)

以下属于数据预处理步骤的有?(至少2个正确选项)

A.缺失值填充

B.特征重要性排序

C.异常值检测

D.模型超参数调优

答案:AC

解析:数据预处理包括清洗(缺失值、异常值)、转换(标准化、分箱)等。B是特征选择阶段;D是建模阶段;AC正确。

以下哪些算法可用于分类任务?(至少2个正确选项)

A.线性回归

B.决策树

C.K近邻(KNN)

D.主成分分析(PCA)

答案:BC

解析:分类任务输出离散标签。A是回归(连续值);B(分类树)、C(基于邻居标签)正确;D是降维(无监督)。

关于Python中Pandas库的

文档评论(0)

1亿VIP精品文档

相关文档