- 1
- 0
- 约7.61千字
- 约 11页
- 2026-01-08 发布于上海
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
混淆矩阵中“假阳性(FalsePositive)”指的是?
A.实际为正类,模型预测为正类
B.实际为负类,模型预测为正类
C.实际为正类,模型预测为负类
D.实际为负类,模型预测为负类
答案:B
解析:混淆矩阵中,行代表实际类别,列代表预测类别。假阳性(FP)是实际为负类(行=负)但预测为正类(列=正)的情况,对应选项B。A为真阳性(TP),C为假阴性(FN),D为真阴性(TN)。
以下哪种情况最可能导致模型过拟合?
A.训练数据量过大
B.特征数量远多于样本量
C.使用简单的线性模型
D.对数据进行标准化处理
答案:B
解析:过拟合的核心原因是模型复杂度超过数据复杂度。当特征数量远多于样本量时(如高维小样本),模型容易记住训练数据中的噪声,导致泛化能力差(过拟合)。A会缓解过拟合,C和D与过拟合无直接负相关。
数据标准化(Z-score标准化)的主要目的是?
A.使数据服从均匀分布
B.消除特征量纲差异对模型的影响
C.增加数据的离散程度
D.减少数据中的缺失值
答案:B
解析:标准化通过(x-μ)/σ将特征缩放到均值为0、标准差为1的分布,主要解决不同特征因量纲(如“身高cm”与“体重kg”)差异导致的模型训练偏差(如梯度下降受大数值特征主导)。A错误,标准化后数据分布形态不变;C和D与标准化无关。
决策树中使用“信息增益”作为分裂标准时,更倾向于选择以下哪种特征?
A.取值种类少的特征
B.取值种类多的特征
C.与目标变量无关的特征
D.连续型特征
答案:B
解析:信息增益的计算涉及熵的减少量。取值种类多的特征(如ID类特征)会将数据划分为更多子集,导致每个子集的熵更低(趋近于0),从而信息增益更大。因此决策树倾向于选择这类特征(可能引发过拟合)。A的信息增益较小,C无增益,D需离散化后计算。
以下属于过滤法(Filter)特征选择的方法是?
A.递归特征消除(RFE)
B.卡方检验
C.基于模型的特征重要性排序
D.主成分分析(PCA)
答案:B
解析:过滤法通过统计量(如卡方检验、相关系数)衡量特征与目标变量的相关性,独立于模型训练。A和C属于包裹法(Wrapper),依赖模型性能;D是降维方法,非特征选择。
岭回归(RidgeRegression)的正则化项是?
A.L1范数
B.L2范数
C.交叉熵损失
D.均方误差
答案:B
解析:岭回归通过添加L2正则项(λ||w||2)防止系数过大,缓解多重共线性和过拟合;L1正则对应Lasso回归(A错误)。C是分类模型损失函数,D是普通线性回归的损失函数。
K-means聚类算法对以下哪项最敏感?
A.初始聚类中心的选择
B.数据的分布形态(如是否凸形)
C.样本的顺序
D.特征的命名
答案:A
解析:K-means的结果受初始聚类中心影响大(可能陷入局部最优),通常需多次运行取最优。B是DBSCAN等算法的敏感点;C和D不影响聚类结果。
朴素贝叶斯分类器的“朴素”假设是?
A.特征之间相互独立
B.数据服从正态分布
C.类别先验概率相等
D.特征与目标变量线性相关
答案:A
解析:朴素贝叶斯假设各特征在给定类别下条件独立(即P(x1,x2|y)=P(x1|y)P(x2|y)),简化了联合概率计算。其他选项均非其核心假设。
数据仓库(DataWarehouse)与数据库(Database)的核心区别是?
A.数据仓库支持事务处理(OLTP),数据库支持分析处理(OLAP)
B.数据仓库存储结构化数据,数据库存储非结构化数据
C.数据仓库面向主题,数据库面向业务过程
D.数据仓库实时更新,数据库定期更新
答案:C
解析:数据仓库是面向主题(如“用户分析”)、集成、非易失、随时间变化的数据集合,支持OLAP;数据库面向业务过程(如“订单交易”),支持OLTP(A错误)。两者均以结构化数据为主(B错误),数据仓库更新频率低(D错误)。
A/B测试的关键假设是?
A.实验组与对照组样本量相同
B.两组用户特征分布无显著差异
C.测试周期越长越好
D.仅需关注单一指标
答案:B
解析:A/B测试的核心是通过随机分组确保两组用户的特征分布一致(无选择偏差),从而将指标差异归因于实验变量。样本量可不同(A错误),测试周期需足够(但非越长越好,C错误),需关注多维度指标(D错误)。
二、多项选择题(共10题,每题2分,共20分)
以下属于特征工程的常用方法有?()
A.缺失值填充
B.类别特征独热编码(One-HotEncoding)
C.特征交叉(FeatureCross)
D.主成分分析(PCA)
您可能关注的文档
- 0智能合约的安全审计.docx
- 2025年供应链管理专业人士考试题库(附答案和详细解析)(1231).docx
- 2025年心理健康指导师考试题库(附答案和详细解析)(1229).docx
- 2025年护士执业资格考试考试题库(附答案和详细解析)(1212).docx
- 2025年无人机驾驶员执照考试题库(附答案和详细解析)(1230).docx
- 2025年注册国际投资分析师(CIIA)考试题库(附答案和详细解析)(1226).docx
- 2025年注册气象工程师考试题库(附答案和详细解析)(1220).docx
- 2025年注册统计师考试题库(附答案和详细解析)(1216).docx
- 2025年老年照护师考试题库(附答案和详细解析)(1222).docx
- 2025年银行从业资格考试考试题库(附答案和详细解析)(1122).docx
最近下载
- 新版冀教版科学四年级上册期末试卷(5套).pdf VIP
- 人行悬索桥专项施工方案(论证).pdf VIP
- 你是在高三如何最大幅度提分?——from知乎:铁匠qwer(提分150+).pdf VIP
- 标准图集-17J008 挡土墙(重力式、衡重式、悬臂式) -抗震烈度7.pdf VIP
- 浙江省宁波市余姚市2024-2025学年三年级上学期期末语文试卷.docx VIP
- 电土施表13.3-12 地漏及地面清扫口排水试验记录.doc VIP
- 工商业储能商业模式探索_储能PPT - 副本.pptx VIP
- 数据库原理及应用教程(MySQL版)全套教学课件.pptx VIP
- 医学课件-会厌囊肿护理查房.pptx VIP
- CATL安全作业试题及答案.doc
原创力文档

文档评论(0)