2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1026).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1026).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是处理数据集中少量缺失值(缺失率5%)的合理方法?

A.对数值型特征用众数填充

B.直接删除包含缺失值的行

C.对时间序列特征用随机数填充

D.保留缺失值直接输入模型训练

答案:B

解析:处理少量缺失值时,直接删除包含缺失值的行(列表删除法)是常用方法(B正确)。数值型特征应使用均值/中位数填充,众数适用于分类型(A错误);时间序列通常用插值法(如前向填充),随机数会破坏时序性(C错误);多数模型无法直接处理缺失值,需填充或删除(D错误)。

在逻辑回归中,以下哪个指标用于衡量模型对分类边界的置信度?

A.准确率(Accuracy)

B.对数损失(LogLoss)

C.F1分数

D.ROC曲线下面积(AUC)

答案:B

解析:对数损失(LogLoss)衡量预测概率与真实标签的差异,值越小表示模型对分类结果越有信心(B正确)。准确率是分类正确比例,不反映置信度(A错误);F1是精确率与召回率的调和平均(C错误);AUC衡量模型区分正负类的能力(D错误)。

以下哪种数据可视化方法最适合展示多个变量间的相关性?

A.箱线图(BoxPlot)

B.散点矩阵(ScatterMatrix)

C.折线图(LineChart)

D.柱状图(BarChart)

答案:B

解析:散点矩阵可同时展示多变量两两之间的散点图,直观反映变量间的线性或非线性关系(B正确)。箱线图用于展示单变量分布(A错误);折线图适合时序数据(C错误);柱状图用于比较分类变量的数值(D错误)。

假设检验中,若原假设为“μ=μ?”,当实际μ≠μ?但未拒绝原假设时,发生了:

A.第一类错误(α错误)

B.第二类错误(β错误)

C.正确决策

D.统计功效不足

答案:B

解析:第二类错误(β错误)指原假设为假时未拒绝原假设(B正确)。第一类错误是原假设为真时拒绝原假设(A错误);正确决策需原假设与结论一致(C错误);统计功效(1-β)反映拒绝错误原假设的能力(D错误)。

以下哪项属于非监督学习任务?

A.预测客户是否会流失(二分类)

B.识别图像中的手写数字(多分类)

C.将用户分为不同兴趣群体(聚类)

D.预测房价(回归)

答案:C

解析:聚类(如K-means)是典型的非监督学习,无需标签(C正确)。分类(A、B)和回归(D)均为监督学习,需标签数据训练。

在特征工程中,对“月份”特征(1-12月)进行编码时,最合理的方法是:

A.独热编码(One-HotEncoding)

B.标签编码(LabelEncoding)

C.循环编码(CyclicEncoding)

D.目标编码(TargetEncoding)

答案:C

解析:月份具有周期性(12月与1月相邻),循环编码(如用sin/cos转换)能保留周期性关系(C正确)。独热编码会增加12维特征,可能丢失周期性(A错误);标签编码将月份视为有序数值(12…12),不符合实际(B错误);目标编码依赖标签,可能过拟合(D错误)。

以下哪个数据库适合存储实时数据流(如传感器数据)?

A.关系型数据库(MySQL)

B.文档型数据库(MongoDB)

C.列存储数据库(HBase)

D.时序数据库(InfluxDB)

答案:D

解析:时序数据库(如InfluxDB)优化了时间序列数据的写入和查询性能,适合实时数据流(D正确)。关系型数据库适合结构化事务数据(A错误);文档型适合半结构化数据(B错误);列存储适合批量分析(C错误)。

在随机森林(RandomForest)中,以下哪项不是其关键特性?

A.基于决策树的集成学习

B.对每个节点分裂时随机选择特征子集

C.可输出特征重要性

D.必须使用Boosting方法组合基模型

答案:D

解析:随机森林使用Bagging(自助采样)组合基决策树,而非Boosting(D错误)。其他选项均为随机森林的核心特性(A、B、C正确)。

以下哪种评估指标不适用于不平衡数据集的分类任务?

A.精确率(Precision)

B.召回率(Recall)

C.准确率(Accuracy)

D.F1分数

答案:C

解析:准确率在不平衡数据中会因多数类占比高而虚高(如99%负样本时,全预测负类准确率99%,但无实际价值)(C错误)。精确率、召回率、F1关注正类表现,更适合不平衡数据(A、B、D正确)。

数据科学项目中,“数据探索(EDA)”的核心目标是:

A.直接构建预测模型

B.发现数据中的模式、异常和关系

C.完成数据清洗

D.生成最终报告

答案:B

解析:数据探索(EDA)通过统计和可视化分析数据分布、特征关系及异

您可能关注的文档

文档评论(0)

杜家小钰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档