2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0112).docxVIP

  • 0
  • 0
  • 约7.16千字
  • 约 11页
  • 2026-02-12 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0112).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种方法最适合处理数值型特征的偏态分布缺失值?

A.用均值填充

B.用中位数填充

C.用众数填充

D.直接删除缺失行

答案:B

解析:偏态分布数据中,均值易受极端值影响,中位数更能代表数据集中趋势(适合偏态分布);众数适用于分类型特征;直接删除会损失信息(仅当缺失率极低时适用)。

独热编码(One-HotEncoding)的核心作用是?

A.标准化数值特征的尺度

B.将类别特征转化为二进制向量

C.提取文本的关键特征

D.对时间序列进行周期分解

答案:B

解析:独热编码通过创建二进制列表示类别特征(如“性别”分为“男”“女”两列);标准化是Z-score或Min-Max的作用;文本特征提取常用TF-IDF;时间分解属于时间序列处理。

逻辑回归模型的损失函数通常是?

A.均方误差(MSE)

B.交叉熵损失(Cross-Entropy)

C.Hinge损失

D.指数损失

答案:B

解析:逻辑回归通过sigmoid函数输出概率,交叉熵损失用于衡量概率预测与真实标签的差异;均方误差是线性回归的损失函数;Hinge损失用于SVM;指数损失用于AdaBoost。

检验两组小样本(n30)均值是否有显著差异,应选择?

A.卡方检验

B.t检验

C.F检验

D.曼-惠特尼U检验

答案:B

解析:t检验适用于小样本均值比较(假设数据近似正态分布);卡方检验用于分类变量的独立性或分布检验;F检验用于方差分析;曼-惠特尼U检验是非参数检验(数据不满足正态时使用)。

箱线图(BoxPlot)主要用于展示数据的?

A.时间趋势

B.分布特征(如四分位数、异常值)

C.变量间相关性

D.特征重要性排序

答案:B

解析:箱线图通过四分位数、中位数和whiskers展示数据分布范围和异常值;时间趋势用折线图;相关性用散点图或热力图;特征重要性用条形图。

在线分析处理(OLAP)系统的核心功能是?

A.支持高并发事务操作(如订单提交)

B.快速响应复杂查询和多维分析

C.实时存储流数据

D.保证数据的原子性与一致性

答案:B

解析:OLAP(在线分析处理)优化复杂查询和多维分析(如销售数据的季度/区域汇总);OLTP(在线事务处理)支持高并发事务(如电商下单);实时流存储属于消息队列(如Kafka)。

Hadoop生态中,HDFS(HadoopDistributedFileSystem)的主要功能是?

A.分布式计算框架

B.资源管理与调度

C.分布式存储系统

D.元数据管理

答案:C

解析:HDFS是Hadoop的分布式存储系统,将大文件分块存储在多台机器上;MapReduce是计算框架;YARN负责资源管理;NameNode管理元数据。

当分类任务中正负样本严重不平衡时,以下哪个指标最能反映模型性能?

A.准确率(Accuracy)

B.F1分数(F1-Score)

C.均方根误差(RMSE)

D.调整R平方(AdjustedR2)

答案:B

解析:准确率在类别不平衡时会被多数类主导(如99%负样本时,全预测负样本准确率99%但无意义);F1分数综合精确率和召回率,更适合不平衡场景;RMSE和调整R2用于回归任务。

以下哪种方法属于特征选择(FeatureSelection)?

A.主成分分析(PCA)

B.计算特征与目标的信息增益

C.对数值特征进行归一化

D.将文本转换为词向量

答案:B

解析:特征选择是从原始特征中筛选关键特征(如信息增益衡量特征对目标的预测能力);PCA是降维(特征提取);归一化是特征变换;文本向量化是特征工程中的表示方法。

《通用数据保护条例》(GDPR)主要由哪个地区/组织制定?

A.美国

B.欧盟

C.中国

D.联合国

答案:B

解析:GDPR是欧盟2018年实施的严格数据隐私法规,适用于所有处理欧盟公民数据的机构;美国有CCPA(加州消费者隐私法),中国有《个人信息保护法》。

二、多项选择题(共10题,每题2分,共20分)

数据清洗的关键步骤包括?

A.缺失值处理

B.异常值检测

C.重复值消除

D.特征提取

答案:ABC

解析:数据清洗聚焦于提升数据质量,包括处理缺失值(插补/删除)、检测异常值(如Z-score法)、消除重复记录;特征提取属于特征工程(后续建模步骤)。

以下属于监督学习算法的有?

A.随机森林(RandomForest)

B.K-means聚类

C.逻辑回归(LogisticRegression)

D.支持向量机(SVM)

答案:ACD

解析:监督学习需要标签数据(如分类、回归),随机森林、逻辑回归、

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档