2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0120).docxVIP

  • 0
  • 0
  • 约8.29千字
  • 约 11页
  • 2026-03-16 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0120).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种数据类型属于定距数据?

A.性别(男/女)

B.温度(℃)

C.教育程度(小学/中学/大学)

D.体重(kg)

答案:B

解析:定距数据的特点是具有相等单位但无绝对零点。温度(℃)满足这一条件(如20℃与30℃的温差等于30℃与40℃的温差,但0℃不表示“没有温度”)。A是定类数据(无顺序),C是定序数据(有顺序但无相等单位),D是定比数据(有绝对零点)。

特征工程中,“将年龄分为青年/中年/老年”属于以下哪种操作?

A.特征提取

B.特征离散化

C.特征标准化

D.特征交叉

答案:B

解析:特征离散化是将连续型变量转换为分类型变量的过程(如年龄分段)。特征提取是从原始数据中生成新特征(如从时间戳提取月份),标准化是缩放数据范围(如Z-score),交叉是组合多个特征(如年龄×收入)。

以下哪种情况最可能导致模型过拟合?

A.训练集误差大,测试集误差小

B.训练集误差小,测试集误差大

C.训练集和测试集误差都大

D.训练集和测试集误差都小

答案:B

解析:过拟合指模型过度学习训练集的噪声和细节,导致泛化能力差。表现为训练集误差小(拟合好),但测试集误差大(无法推广)。A是欠拟合,C是模型性能差,D是理想状态(恰拟合)。

混淆矩阵中,“假阳性(FP)”指的是?

A.真实为正,预测为正

B.真实为正,预测为负

C.真实为负,预测为正

D.真实为负,预测为负

答案:C

解析:混淆矩阵四象限定义:TP(真阳性)=真实正/预测正;FN(假阴性)=真实正/预测负;FP(假阳性)=真实负/预测正;TN(真阴性)=真实负/预测负。

数据仓库(DataWarehouse)的核心特点是?

A.支持实时事务处理

B.面向主题、集成、非易失、时变

C.采用关系型数据库结构

D.支持高频数据更新

答案:B

解析:数据仓库的四大特性:面向主题(按业务主题组织)、集成(多源数据整合)、非易失(长期存储,少更新)、时变(包含时间维度)。A和D是OLTP(联机事务处理)的特点,C是数据库的通用结构。

假设检验中,“拒绝原假设时犯错误”的概率是?

A.置信水平(1-α)

B.显著性水平(α)

C.P值

D.β错误

答案:B

解析:α是第一类错误(弃真错误)的概率,即原假设为真时错误拒绝的概率。β是第二类错误(取伪错误)的概率。P值是观察到当前统计量或更极端情况的概率,若P≤α则拒绝原假设。

正则化(Regularization)的主要目的是?

A.提高模型训练速度

B.防止过拟合

C.处理缺失值

D.增强模型可解释性

答案:B

解析:正则化通过在损失函数中添加惩罚项(如L1/L2范数),限制模型复杂度,避免参数过大,从而防止过拟合。A是优化器(如SGD)的作用,C是数据清洗任务,D可通过特征重要性分析实现。

以下哪种算法属于无监督学习?

A.逻辑回归

B.支持向量机(SVM)

C.K-means聚类

D.随机森林

答案:C

解析:无监督学习无标签数据,目标是发现数据内在结构(如聚类、降维)。K-means根据数据相似性分组,属于无监督。其他选项(逻辑回归、SVM、随机森林)均为有监督学习(需标签训练)。

时间序列分析中,“自回归模型(AR)”的核心假设是?

A.未来值与过去值线性相关

B.序列具有季节性

C.误差项服从正态分布

D.序列是平稳的

答案:A

解析:AR(p)模型假设当前值是前p期值的线性组合(如Yt=c+φ1Yt-1+…+φpYt-p+εt)。B是季节性模型(如SARIMA)的假设,D是平稳性要求(非核心假设),C是误差项的常见假设但非AR模型特有。

数据伦理中,“数据匿名化”的主要风险是?

A.计算成本过高

B.可能通过关联分析重新识别个体

C.破坏数据完整性

D.降低模型预测精度

答案:B

解析:匿名化(如删除姓名、ID)无法完全防止再识别,例如通过“性别+年龄+邮编”等准标识符组合,仍可能关联到具体个体(如Netflix数据集泄露事件)。其他选项非主要风险。

二、多项选择题(共10题,每题2分,共20分)

数据清洗的常见步骤包括?(至少2个正确选项)

A.缺失值插补

B.异常值修正

C.数据标准化

D.重复值删除

答案:ABD

解析:数据清洗关注解决数据质量问题,包括处理缺失值(A)、修正或删除异常值(B)、删除重复记录(D)。数据标准化(C)属于特征工程,用于统一量纲,非清洗步骤。

以下哪些属于分类任务的评估指标?

A.均方误差(MSE)

B.F1分数

C.ROC-AUC

D.平均绝对误差(MAE)

答案:BC

解析:分类任务评估指

文档评论(0)

1亿VIP精品文档

相关文档