2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1130）.docxVIP

下载本文档

0
0
约7.86千字
约 11页
2025-12-14 发布于上海
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1130）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪种数据类型属于连续型数据？

A.性别（男/女）

B.温度（℃）

C.满意度等级（1-5星）

D.职业类型（教师/医生/工程师）

答案：B

解析：连续型数据是指在一定区间内可以取任意值的数据（如温度、身高），具有无限多个可能的取值；分类数据（A、D）和顺序数据（C）属于离散型数据，取值为有限的类别或等级。

处理缺失值时，若某特征缺失比例超过70%且对目标变量无显著影响，最合理的处理方式是？

A.用均值填充

B.用中位数填充

C.直接删除该特征

D.用KNN算法预测填充

答案：C

解析：当特征缺失比例过高（如超过70%）且重要性低时，删除该特征可避免引入噪声；均值/中位数填充（A、B）适用于低缺失率的数值型特征；KNN填充（D）适用于缺失率中等且特征间相关性强的场景。

以下哪种算法属于监督学习？

A.K-means聚类

B.主成分分析（PCA）

C.线性回归

D.关联规则挖掘（Apriori）

答案：C

解析：监督学习需要标注的训练数据（输入-输出对），线性回归通过拟合输入特征与目标变量的关系进行预测；无监督学习（A、B、D）仅通过输入数据发现模式，无需目标变量。

评估分类模型时，“精确率（Precision）”的计算公式是？

A.真阳性/(真阳性+假阳性)

B.真阳性/(真阳性+假阴性)

C.真阴性/(真阴性+假阳性)

D.(真阳性+真阴性)/(总样本数)

答案：A

解析：精确率衡量预测为正类的样本中实际为正类的比例（TP/(TP+FP)）；B是召回率（Recall），C是真负率（Specificity），D是准确率（Accuracy）。

以下哪项是t检验的前提假设？

A.数据服从卡方分布

B.两组样本方差齐性

C.样本量大于30

D.变量为分类变量

答案：B

解析：t检验要求样本来自正态分布总体，且两组样本方差齐性（方差相等）；卡方分布（A）是卡方检验的前提；样本量大于30（C）是z检验的近似条件；t检验适用于数值型变量（D错误）。

数据可视化中，用于展示三个变量间关系的最佳图表是？

A.折线图

B.散点图矩阵

C.箱线图

D.热力图

答案：B

解析：散点图矩阵可同时展示多个变量两两之间的散点关系（如X、Y、Z三个变量的X-Y、X-Z、Y-Z散点图）；折线图（A）适合时间序列趋势，箱线图（C）展示分布，热力图（D）展示矩阵数据的密度或相关性。

特征选择中，“互信息法”主要用于衡量？

A.特征与目标变量的线性相关性

B.特征与目标变量的非线性相关性

C.特征间的多重共线性

D.特征的方差大小

答案：B

解析：互信息（MutualInformation）用于度量两个变量间的统计依赖关系，可捕捉线性和非线性相关性；线性相关性（A）用皮尔逊相关系数衡量；多重共线性（C）用VIF检验；方差大小（D）是方差阈值法的依据。

正则化（Regularization）的主要目的是？

A.提高模型在训练集上的准确率

B.减少模型的偏差

C.防止过拟合

D.加速模型训练速度

答案：C

解析：正则化通过在损失函数中添加惩罚项（如L1/L2范数），限制模型复杂度，避免模型过度拟合训练数据中的噪声；提高训练准确率（A）是过拟合的表现，减少偏差（B）需增加模型复杂度，加速训练（D）依赖优化算法。

以下哪种数据库适合存储非结构化数据？

A.关系型数据库（如MySQL）

B.键值数据库（如Redis）

C.文档数据库（如MongoDB）

D.列存储数据库（如HBase）

答案：C

解析：文档数据库（如MongoDB）支持存储半结构化/非结构化的JSON格式文档，适合灵活的非结构化数据；关系型数据库（A）要求结构化表格，键值数据库（B）适合简单键值对，列存储（D）适合海量结构化数据。

以下哪项是Hadoop生态中负责资源调度的组件？

A.HDFS

B.MapReduce

C.YARN

D.Hive

答案：C

解析：YARN（YetAnotherResourceNegotiator）是Hadoop的资源管理系统，负责集群资源的分配和任务调度；HDFS（A）是分布式文件系统，MapReduce（B）是计算框架，Hive（D）是数据仓库工具。

二、多项选择题（共10题，每题2分，共20分）

数据清洗的常见步骤包括？（至少2个正确选项）

A.处理缺失值

B.特征标准化

C.检测异常值

D.计算特征重要性

答案：AC

解析：数据清洗主要解决数据质量问题，包括缺失值处理（A）、异常值检测（C）、纠正格式错误、删除重复值等；特征标准化（B）属于特征工程，计算特征重要性（D）是模型训练后的分析步

您可能关注的文档

文档评论（0）

杜家小钰 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1130）.docxVIP