2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1003）.docxVIP

下载本文档

0
0
约7.47千字
约 10页
2025-10-29 发布于江苏
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1003）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是数据清洗中处理缺失值的合理方法？

A.对所有含缺失值的记录直接删除

B.对分类变量缺失值用均值填充

C.对小比例（5%）缺失的数值型变量记录直接删除

D.对所有缺失值用前向填充法处理

答案：C

解析：A错误，直接删除所有含缺失值的记录可能导致数据大量丢失；B错误，分类变量缺失值应使用众数或特定标记填充，均值适用于数值型变量；C正确，小比例缺失的记录删除对整体数据影响较小；D错误，前向填充法（ffill）适用于时间序列数据，并非所有场景。

监督学习与无监督学习的核心区别是？

A.是否需要特征工程

B.是否有标签（Label）

C.是否使用迭代优化

D.是否处理结构化数据

答案：B

解析：监督学习需要标注的标签（如分类问题的类别、回归问题的目标值），无监督学习仅处理无标签数据（如聚类、降维），因此核心区别是B；A、C、D是两类学习可能共有的步骤或特性，非核心区别。

在混淆矩阵中，准确率（Accuracy）的计算公式是？

A.TP/(TP+FP)

B.(TP+TN)/(TP+TN+FP+FN)

C.TP/(TP+FN)

D.TN/(TN+FP)

答案：B

解析：准确率是预测正确的样本占总样本的比例，即（真阳性+真阴性）/总样本数，对应B；A是精确率（Precision），C是召回率（Recall），D是特异度（Specificity）。

以下哪种算法属于生成式模型？

A.逻辑回归

B.支持向量机（SVM）

C.朴素贝叶斯

D.随机森林

答案：C

解析：生成式模型通过学习数据的联合概率分布P(X,Y)建模（如朴素贝叶斯假设特征独立，计算P(Y|X)），而判别式模型直接学习条件概率P(Y|X)或决策边界（如逻辑回归、SVM、随机森林），因此C正确。

对数据进行标准化（Z-score）后，数据的均值和标准差分别为？

A.0，1

B.1，0

C.原均值，原标准差

D.任意值，取决于数据范围

答案：A

解析：标准化公式为(X-μ)/σ，处理后数据均值为0，标准差为1，因此A正确。

时间序列分析中，ARIMA模型的“MA”代表？

A.自回归（AutoRegressive）

B.移动平均（MovingAverage）

C.差分（Integrated）

D.季节调整（Seasonal）

答案：B

解析：ARIMA模型由三部分组成：AR（自回归）、I（差分）、MA（移动平均），因此B正确。

以下哪种场景最适合使用K-means聚类？

A.预测客户是否会流失（二分类）

B.识别用户群体的特征模式（无标签）

C.预测房价（回归）

D.检测信用卡交易中的异常值

答案：B

解析：K-means是无监督学习算法，用于将无标签数据划分为簇，适合识别用户群体模式（B）；A、C是监督学习任务，D通常用孤立森林或DBSCAN。

在特征重要性评估中，随机森林的默认方法是？

A.卡方检验

B.Gini不纯度减少量

C.互信息

D.皮尔逊相关系数

答案：B

解析：随机森林通过计算每个特征在树分裂时的Gini不纯度（或信息增益）的总减少量来评估重要性，因此B正确；卡方检验用于分类特征与标签的相关性，互信息衡量非线性相关，皮尔逊系数衡量线性相关。

以下哪项不是数据可视化的主要目的？

A.发现数据中的模式或异常

B.替代统计检验

C.辅助决策沟通

D.展示变量间的关系

答案：B

解析：可视化用于直观呈现数据特征，但不能替代严格的统计检验（如假设检验），因此B错误；A、C、D均为可视化的核心目的。

大数据处理框架Hadoop的核心组件是？

A.Spark和Flink

B.HDFS和MapReduce

C.Hive和HBase

D.Kafka和ZooKeeper

答案：B

解析：Hadoop的核心是分布式文件系统HDFS（存储）和MapReduce（计算），因此B正确；其他选项是Hadoop生态的扩展组件。

二、多项选择题（共10题，每题2分，共20分）

以下属于特征工程的步骤有？（至少2个正确选项）

A.特征缩放（如标准化）

B.特征分箱（离散化）

C.模型超参数调优（如调整学习率）

D.独热编码（One-HotEncoding）

答案：ABD

解析：特征工程是对原始数据进行转换以提升模型性能的过程，包括特征缩放（A）、分箱（B）、独热编码（D）；模型调参（C）属于模型训练阶段，非特征工程。

以下哪些指标可用于评估回归模型的性能？（至少2个正确选项）

A.均方误差（MSE）

B.R2决定系数

C.F1分数

D.准确率（Accuracy）

答案：AB

解析：回归模型评估指标包括MSE（预测值

您可能关注的文档

文档评论（0）

杜家小钰 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1003）.docxVIP