- 0
- 0
- 约8.29千字
- 约 11页
- 2026-03-16 发布于上海
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种数据类型属于定距数据?
A.性别(男/女)
B.温度(℃)
C.教育程度(小学/中学/大学)
D.体重(kg)
答案:B
解析:定距数据的特点是具有相等单位但无绝对零点。温度(℃)满足这一条件(如20℃与30℃的温差等于30℃与40℃的温差,但0℃不表示“没有温度”)。A是定类数据(无顺序),C是定序数据(有顺序但无相等单位),D是定比数据(有绝对零点)。
特征工程中,“将年龄分为青年/中年/老年”属于以下哪种操作?
A.特征提取
B.特征离散化
C.特征标准化
D.特征交叉
答案:B
解析:特征离散化是将连续型变量转换为分类型变量的过程(如年龄分段)。特征提取是从原始数据中生成新特征(如从时间戳提取月份),标准化是缩放数据范围(如Z-score),交叉是组合多个特征(如年龄×收入)。
以下哪种情况最可能导致模型过拟合?
A.训练集误差大,测试集误差小
B.训练集误差小,测试集误差大
C.训练集和测试集误差都大
D.训练集和测试集误差都小
答案:B
解析:过拟合指模型过度学习训练集的噪声和细节,导致泛化能力差。表现为训练集误差小(拟合好),但测试集误差大(无法推广)。A是欠拟合,C是模型性能差,D是理想状态(恰拟合)。
混淆矩阵中,“假阳性(FP)”指的是?
A.真实为正,预测为正
B.真实为正,预测为负
C.真实为负,预测为正
D.真实为负,预测为负
答案:C
解析:混淆矩阵四象限定义:TP(真阳性)=真实正/预测正;FN(假阴性)=真实正/预测负;FP(假阳性)=真实负/预测正;TN(真阴性)=真实负/预测负。
数据仓库(DataWarehouse)的核心特点是?
A.支持实时事务处理
B.面向主题、集成、非易失、时变
C.采用关系型数据库结构
D.支持高频数据更新
答案:B
解析:数据仓库的四大特性:面向主题(按业务主题组织)、集成(多源数据整合)、非易失(长期存储,少更新)、时变(包含时间维度)。A和D是OLTP(联机事务处理)的特点,C是数据库的通用结构。
假设检验中,“拒绝原假设时犯错误”的概率是?
A.置信水平(1-α)
B.显著性水平(α)
C.P值
D.β错误
答案:B
解析:α是第一类错误(弃真错误)的概率,即原假设为真时错误拒绝的概率。β是第二类错误(取伪错误)的概率。P值是观察到当前统计量或更极端情况的概率,若P≤α则拒绝原假设。
正则化(Regularization)的主要目的是?
A.提高模型训练速度
B.防止过拟合
C.处理缺失值
D.增强模型可解释性
答案:B
解析:正则化通过在损失函数中添加惩罚项(如L1/L2范数),限制模型复杂度,避免参数过大,从而防止过拟合。A是优化器(如SGD)的作用,C是数据清洗任务,D可通过特征重要性分析实现。
以下哪种算法属于无监督学习?
A.逻辑回归
B.支持向量机(SVM)
C.K-means聚类
D.随机森林
答案:C
解析:无监督学习无标签数据,目标是发现数据内在结构(如聚类、降维)。K-means根据数据相似性分组,属于无监督。其他选项(逻辑回归、SVM、随机森林)均为有监督学习(需标签训练)。
时间序列分析中,“自回归模型(AR)”的核心假设是?
A.未来值与过去值线性相关
B.序列具有季节性
C.误差项服从正态分布
D.序列是平稳的
答案:A
解析:AR(p)模型假设当前值是前p期值的线性组合(如Yt=c+φ1Yt-1+…+φpYt-p+εt)。B是季节性模型(如SARIMA)的假设,D是平稳性要求(非核心假设),C是误差项的常见假设但非AR模型特有。
数据伦理中,“数据匿名化”的主要风险是?
A.计算成本过高
B.可能通过关联分析重新识别个体
C.破坏数据完整性
D.降低模型预测精度
答案:B
解析:匿名化(如删除姓名、ID)无法完全防止再识别,例如通过“性别+年龄+邮编”等准标识符组合,仍可能关联到具体个体(如Netflix数据集泄露事件)。其他选项非主要风险。
二、多项选择题(共10题,每题2分,共20分)
数据清洗的常见步骤包括?(至少2个正确选项)
A.缺失值插补
B.异常值修正
C.数据标准化
D.重复值删除
答案:ABD
解析:数据清洗关注解决数据质量问题,包括处理缺失值(A)、修正或删除异常值(B)、删除重复记录(D)。数据标准化(C)属于特征工程,用于统一量纲,非清洗步骤。
以下哪些属于分类任务的评估指标?
A.均方误差(MSE)
B.F1分数
C.ROC-AUC
D.平均绝对误差(MAE)
答案:BC
解析:分类任务评估指
您可能关注的文档
- 2025年边缘计算工程师考试题库(附答案和详细解析)(1231).docx
- 2026年基因数据解读师考试题库(附答案和详细解析)(0123).docx
- 2026年建筑节能评估师考试题库(附答案和详细解析)(0119).docx
- 2026年影视后期制作师考试题库(附答案和详细解析)(0116).docx
- 2026年心理健康指导师考试题库(附答案和详细解析)(0131).docx
- 2026年注册安全工程师考试题库(附答案和详细解析)(0116).docx
- 2026年注册节能评估师考试题库(附答案和详细解析)(0131).docx
- 2026年注册证券分析师(RSA)考试题库(附答案和详细解析)(0126).docx
- 2026年注册资产管理师(CAMA)考试题库(附答案和详细解析)(0128).docx
- APP新版本上线运营方案.docx
原创力文档

文档评论(0)