- 0
- 0
- 约7.68千字
- 约 12页
- 2026-03-15 发布于上海
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
在分类模型的混淆矩阵中,“真正例(TruePositive)”指的是?
A.实际为负类,模型预测为负类
B.实际为正类,模型预测为正类
C.实际为负类,模型预测为正类
D.实际为正类,模型预测为负类
答案:B
解析:混淆矩阵中,“真正例(TP)”定义为实际类别为正类且模型预测为正类的样本;A为真负例(TN),C为假正例(FP),D为假负例(FN)。
以下哪项属于特征工程中的“特征缩放”操作?
A.对类别特征进行独热编码
B.计算两个连续特征的乘积作为新特征
C.将年龄特征从“岁”转换为“0-1”标准化值
D.使用卡方检验筛选与目标变量相关的特征
答案:C
解析:特征缩放的目的是消除特征间量纲差异,常见方法包括标准化(Z-score)和归一化(Min-Max)。C选项是标准化操作;A属于特征编码,B属于特征构造,D属于特征选择。
模型在训练集上表现很好但在测试集上表现差,最可能的原因是?
A.模型欠拟合
B.数据存在缺失值
C.模型过拟合
D.学习率设置过低
答案:C
解析:过拟合的典型表现是模型对训练数据过度学习(甚至记忆噪声),导致泛化能力差(测试集性能下降);欠拟合表现为训练集和测试集性能均差,数据缺失和学习率过低通常影响训练效率而非泛化差异。
数据清洗中处理缺失值的常用方法不包括?
A.删除包含缺失值的记录
B.用特征均值填充缺失值
C.保留缺失值并标记为特殊值
D.直接忽略缺失值继续建模
答案:D
解析:直接忽略缺失值可能导致模型输入不完整(如算法无法处理NaN)或引入偏差(缺失值可能隐含信息);A、B、C均为合理的缺失值处理方法。
以下属于监督学习任务的是?
A.客户分群(聚类)
B.预测房价(回归)
C.关联规则挖掘(Apriori)
D.降维(PCA)
答案:B
解析:监督学习需要标注的训练数据(特征+标签),回归任务(如预测房价)的标签是连续值,属于监督学习;聚类、关联规则、降维均为无监督学习(无标签)。
贝叶斯定理主要用于解决以下哪类问题?
A.基于历史数据的概率推理
B.高维数据的降维
C.非线性分类的最大间隔划分
D.近邻样本的相似性计算
答案:A
解析:贝叶斯定理通过先验概率和似然度计算后验概率(P(A|B)=P(B|A)P(A)/P(B)),常用于概率推理(如垃圾邮件分类);B是PCA,C是SVM,D是KNN。
Hadoop分布式计算框架的核心组件是?
A.Hive和HBase
B.HDFS和MapReduce
C.Spark和Flink
D.Zookeeper和Kafka
答案:B
解析:Hadoop的核心是HDFS(分布式文件系统)和MapReduce(分布式计算模型);Hive是数据仓库工具,Spark是独立计算框架,Zookeeper用于协调,Kafka是消息队列。
决策树分裂时,“信息增益”指标用于衡量?
A.特征与目标变量的线性相关性
B.分裂后数据纯度的提升程度
C.模型的泛化误差
D.样本的类别分布均衡性
答案:B
解析:信息增益(InformationGain)通过比较分裂前后的信息熵(数据混乱度),衡量分裂对数据纯度的提升;线性相关性用相关系数,泛化误差用测试集评估,类别均衡性用基尼系数或熵本身。
K-means聚类算法的停止条件通常不包括?
A.质心位置不再显著变化
B.达到最大迭代次数
C.所有样本的簇分配不再变化
D.误差平方和(SSE)达到最小值
答案:D
解析:K-means的停止条件通常是质心稳定(A)、迭代次数上限(B)或样本簇分配稳定(C);SSE理论上无法保证达到全局最小(可能陷入局部最优),因此不作为停止条件。
L2正则化(岭回归)的主要作用是?
A.减少模型的偏差
B.增加模型的复杂度
C.防止过拟合,降低方差
D.处理数据中的多重共线性
答案:C
解析:L2正则化通过在损失函数中添加权重的平方和惩罚项(λ||w||2),限制模型参数的大小,从而降低模型复杂度,防止过拟合(降低方差);处理多重共线性是副作用,减少偏差需要更复杂模型。
二、多项选择题(共10题,每题2分,共20分)
数据预处理阶段通常包括以下哪些步骤?()
A.数据清洗(处理缺失值、异常值)
B.数据集成(多源数据合并)
C.数据可视化(探索分布特征)
D.数据规约(降维或采样)
答案:ABD
解析:数据预处理是建模前的准备工作,包括清洗(A)、集成(B)、变换(如标准化)、规约(D);可视化(C)属于探索性数据分析(EDA),是独立阶段。
以下属于特征选择方法的有?()
A.主成分分析(PCA)
B.卡方检验(
您可能关注的文档
- 2026年健康管理师考试题库(附答案和详细解析)(0122).docx
- 2026年教师资格证考试考试题库(附答案和详细解析)(0113).docx
- 2026年数字营销师(CDMP)考试题库(附答案和详细解析)(0123).docx
- 2026年注册产品设计师考试题库(附答案和详细解析)(0115).docx
- 2026年注册勘察设计工程师考试题库(附答案和详细解析)(0102).docx
- 2026年注册化工工程师考试题库(附答案和详细解析)(0115).docx
- 2026年注册财富管理师(CWM)考试题库(附答案和详细解析)(0120).docx
- 2026年灾难应对心理师考试题库(附答案和详细解析)(0119).docx
- 2026年电工资格证考试题库(附答案和详细解析)(0121).docx
- 2026年虚拟现实开发工程师考试题库(附答案和详细解析)(0121).docx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- 导数概念及其意义高二下学期数学人教A版(2019)选择性必修第二册.docx VIP
- 无负压供水设备安装施工方案.docx VIP
- 2026年苏州工业园区服务外包职业学院单招职业技能测试题库及参考答案详解.docx VIP
- 道班施工组织设计.doc VIP
- 2025年陕西省西安市碑林区铁一中中考七模物理试卷.doc VIP
- TB-T2075-2002《电气化铁道接触网零部件》.pdf VIP
- 索尼DSC-HX30使用说明书.pdf
- 2026年苏州工业园区服务外包职业学院单招职业技能考试题库有答案解析.docx VIP
- FIDIC白皮书中文版.docx
- 海南省国资委省属国有企业招聘笔试题库2025.pdf VIP
原创力文档

文档评论(0)