- 1
- 0
- 约7.48千字
- 约 11页
- 2025-10-17 发布于江苏
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种数据清洗方法适用于处理正态分布的数值型缺失值?
A.用最大值填充
B.用中位数填充
C.用均值填充
D.直接删除缺失行
答案:C
解析:正态分布数据的均值、中位数、众数重合,均值能较好反映数据集中趋势,因此适用于填充缺失值(C正确)。最大值可能放大异常值影响(A错误);中位数适用于偏态分布(B错误);直接删除会损失样本量(D错误)。
在机器学习中,以下哪项指标用于衡量分类模型的精确性(Precision)?
A.正确正例数/(正确正例数+错误正例数)
B.正确正例数/(正确正例数+错误负例数)
C.正确正例数+正确负例数/总样本数
D.正确负例数/(错误正例数+正确负例数)
答案:A
解析:精确率(Precision)定义为“真正例/(真正例+假正例)”(A正确)。B是召回率(Recall),C是准确率(Accuracy),D是真负率(Specificity)。
以下哪项不是关系型数据库(RDBMS)的典型特征?
A.支持SQL查询
B.采用表结构存储
C.适合非结构化数据存储
D.遵循ACID事务特性
答案:C
解析:关系型数据库适合结构化数据(如二维表),非结构化数据(如文本、图像)通常用NoSQL存储(C错误)。其他选项均为RDBMS核心特征(A、B、D正确)。
数据可视化中,用于展示三个变量间关系的最佳图表类型是?
A.散点图
B.折线图
C.柱状图
D.热力图
答案:A
解析:散点图通过x、y轴和点的大小/颜色可同时展示三个变量(A正确)。折线图侧重时间序列趋势(B错误),柱状图比较分类变量(C错误),热力图展示矩阵数据密度(D错误)。
特征工程中,对“用户注册月份”(1-12月)进行编码时,最合理的方法是?
A.直接作为连续数值
B.独热编码(One-Hot)
C.标签编码(LabelEncoding)
D.二进制编码
答案:B
解析:月份是有序分类变量(非连续数值),独热编码可避免模型错误识别为有序关系(B正确)。直接作为连续数值会假设12月与1月差异大(A错误),标签编码可能引入顺序偏差(C错误),二进制编码适用于高基数分类变量(D错误)。
以下哪项是评估回归模型的常用指标?
A.F1分数
B.R2决定系数
C.混淆矩阵
D.准确率
答案:B
解析:R2衡量回归模型对因变量变异的解释程度(B正确)。F1、混淆矩阵、准确率均为分类模型指标(A、C、D错误)。
大数据技术中,Hadoop的HDFS主要用于解决什么问题?
A.分布式计算
B.分布式存储
C.实时流处理
D.资源调度
答案:B
解析:HDFS(Hadoop分布式文件系统)是分布式存储组件(B正确)。分布式计算由MapReduce实现(A错误),实时流处理用Storm或Flink(C错误),资源调度由YARN负责(D错误)。
贝叶斯定理的核心思想是?
A.用先验概率更新后验概率
B.最大化似然函数
C.最小化损失函数
D.寻找数据主成分
答案:A
解析:贝叶斯定理通过P(A|B)=P(B|A)P(A)/P(B),将先验概率P(A)与观测数据P(B|A)结合得到后验概率P(A|B)(A正确)。B是频率学派思想,C是优化目标,D是PCA核心。
以下哪种场景最适合使用K近邻(KNN)算法?
A.大规模高维数据集分类
B.小样本低维数据集分类
C.时间序列预测
D.文本主题聚类
答案:B
解析:KNN计算复杂度高(与样本量和维度正相关),适合小样本低维场景(B正确)。大规模高维数据会导致维度灾难(A错误),时间序列用ARIMA(C错误),文本聚类用LDA或K-means(D错误)。
数据伦理中,“数据最小化原则”指的是?
A.收集尽可能少的必要数据
B.最小化数据存储成本
C.最小化数据处理时间
D.最小化数据可视化复杂度
答案:A
解析:数据最小化原则要求仅收集完成目标所需的必要数据(A正确)。其他选项是技术或成本目标,非伦理原则(B、C、D错误)。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于特征工程中“特征构造”的方法有?
A.计算“用户月均消费=总消费/月份数”
B.对“商品类别”进行独热编码
C.提取“订单时间”的小时特征
D.用主成分分析(PCA)降维
答案:AC
解析:特征构造是从原始特征生成新特征(A计算衍生指标、C时间特征提取均属于构造)。B是特征编码,D是特征选择/降维(非构造)。
以下哪些机器学习模型属于生成式模型?
A.逻辑回归
B.朴素贝叶斯
C.高斯混合模型(GMM)
D.支持向量机(SVM)
答案:BC
解析
您可能关注的文档
- 2025年供应链管理专业人士考试题库(附答案和详细解析)(1010).docx
- 2025年基金从业资格考试考试题库(附答案和详细解析)(1013).docx
- 2025年志愿服务管理师考试题库(附答案和详细解析)(1013).docx
- 2025年注册人力资源管理师考试题库(附答案和详细解析)(1010).docx
- 2025年注册地质工程师考试题库(附答案和详细解析)(1013).docx
- 2025年注册展览设计师考试题库(附答案和详细解析)(1011).docx
- 2025年注册市场营销师(CMM)考试题库(附答案和详细解析)(1014).docx
- 2025年注册暖通工程师考试题库(附答案和详细解析)(1013).docx
- 2025年注册核工程师考试题库(附答案和详细解析)(1013).docx
- 2025年注册翻译专业资格(CATTI)考试题库(附答案和详细解析)(1014).docx
原创力文档

文档评论(0)