- 0
- 0
- 约7.5千字
- 约 11页
- 2026-03-16 发布于上海
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
数据清洗中处理小比例(5%)完全随机缺失的数值型数据,最合理的方法是?
A.用均值填充
B.用中位数填充
C.删除对应行
D.用众数填充
答案:C
解析:当缺失数据比例较小(5%)且符合完全随机缺失(MCAR)假设时,直接删除缺失行对整体数据分布影响最小,能保持数据真实性;均值或中位数填充可能引入人为偏差(A/B错误);众数适用于分类型数据填充(D错误)。
以下哪种算法属于监督学习?
A.K-means
B.PCA
C.SVM(支持向量机)
D.DBSCAN
答案:C
解析:监督学习需要标注的训练数据(标签),SVM通过样本特征和标签学习分类边界(正确);K-means(聚类)、DBSCAN(密度聚类)属于无监督学习(A/D错误);PCA(主成分分析)是无监督降维方法(B错误)。
中心极限定理(CLT)的核心结论是?
A.样本均值的分布趋近于均匀分布
B.样本方差的分布趋近于正态分布
C.无论总体分布如何,大样本均值的分布近似正态分布
D.总体必须服从正态分布才能应用CLT
答案:C
解析:中心极限定理指出,当样本量足够大时,样本均值的抽样分布近似服从正态分布,与总体原始分布无关(C正确);样本均值趋近正态而非均匀(A错误);方差的分布与卡方分布相关(B错误);CLT不要求总体正态(D错误)。
以下哪项是Hadoop生态中用于分布式计算的框架?
A.HDFS
B.HBase
C.Spark
D.Hive
答案:C
解析:Spark是基于内存的分布式计算框架(正确);HDFS是分布式文件系统(A错误);HBase是分布式数据库(B错误);Hive是数据仓库工具(D错误)。
在机器学习中,L2正则化的主要作用是?
A.防止欠拟合
B.减少模型复杂度,防止过拟合
C.提高模型训练速度
D.增强模型对类别不平衡数据的鲁棒性
答案:B
解析:L2正则化通过向损失函数添加权重平方和的惩罚项,限制模型参数大小,减少过拟合风险(B正确);防止欠拟合需增加模型复杂度(A错误);训练速度与优化算法相关(C错误);类别不平衡通常用SMOTE或调整类别权重解决(D错误)。
以下哪种数据类型不适合用箱线图(BoxPlot)展示?
A.连续型数值数据的分布
B.不同类别间的数值比较
C.时间序列数据的趋势
D.异常值的检测
答案:C
解析:箱线图用于展示数据分布、类别比较及异常值检测(A/B/D正确);时间序列趋势需用折线图或面积图(C错误)。
在SQL中,用于返回两个表交集的关键字是?
A.INTERSECT
B.UNION
C.JOIN
D.EXCEPT
答案:A
解析:INTERSECT返回两个表共有的行(正确);UNION合并去重(B错误);JOIN按条件关联(C错误);EXCEPT返回第一个表有、第二个表无的行(D错误)。
以下哪项是决策树过拟合的典型表现?
A.训练集准确率低,测试集准确率高
B.训练集准确率高,测试集准确率低
C.训练集和测试集准确率均低
D.训练集和测试集准确率相近
答案:B
解析:过拟合表现为模型在训练数据上过度学习噪声,导致训练准确率高但泛化能力差(测试准确率低,B正确);欠拟合则训练和测试准确率均低(C错误);A/D为正常或欠拟合表现(A/D错误)}
以下哪种指标适用于评估回归模型的预测误差?
A.准确率(Accuracy)
B.F1分数
C.均方误差(MSE)
D.ROC-AUC
答案:C
解析:回归模型评估常用MSE(均方误差)、MAE(平均绝对误差)等(C正确);准确率、F1、ROC-AUC用于分类任务(A/B/D错误)。
以下哪项不属于非结构化数据?
A.社交媒体文本
B.Excel表格
C.监控视频
D.音频文件
答案:B
解析:非结构化数据无固定格式(文本、音视频),Excel表格是结构化数据(行列存储,B正确);A/C/D均为非结构化(错误)。
二、多项选择题(共10题,每题2分,共20分)
特征工程中常用的特征提取方法包括?
A.独热编码(One-HotEncoding)
B.PCA(主成分分析)
C.分箱处理(Binning)
D.词袋模型(BagofWords)
答案:BD
解析:特征提取是从原始数据中生成新特征(如PCA降维生成主成分,词袋模型将文本转为向量);独热编码(A)和分箱(C)属于特征构造/转换,用于处理分类型或连续型数据(干扰项)。
以下哪些是机器学习中常用的分类模型评估指标?
A.准确率(Accuracy)
B.F1分数
C.均方误差(MSE)
D.ROC-AUC
答案:ABD
解析:分类评估指
您可能关注的文档
- 2026年临床医学检验技术资格考试题库(附答案和详细解析)(0129).docx
- 2026年基层法律服务工作者执业资格考试题库(附答案和详细解析)(0125).docx
- 2026年注册土木工程师考试题库(附答案和详细解析)(0124).docx
- 2026年注册地籍测绘师考试题库(附答案和详细解析)(0117).docx
- 2026年注册证券分析师(RSA)考试题库(附答案和详细解析)(0114).docx
- 2026年灾难应对心理师考试题库(附答案和详细解析)(0129).docx
- 2026年精准医疗工程师考试题库(附答案和详细解析)(0119).docx
- 2026年通信专业技术人员职业资格考试题库(附答案和详细解析)(0116).docx
- 5G基站设备安装调试合同.docx
- CFA一级“财务报表分析”存货计价方法.docx
原创力文档

文档评论(0)