2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1130).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1130).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种数据类型属于连续型数据?

A.性别(男/女)

B.温度(℃)

C.满意度等级(1-5星)

D.职业类型(教师/医生/工程师)

答案:B

解析:连续型数据是指在一定区间内可以取任意值的数据(如温度、身高),具有无限多个可能的取值;分类数据(A、D)和顺序数据(C)属于离散型数据,取值为有限的类别或等级。

处理缺失值时,若某特征缺失比例超过70%且对目标变量无显著影响,最合理的处理方式是?

A.用均值填充

B.用中位数填充

C.直接删除该特征

D.用KNN算法预测填充

答案:C

解析:当特征缺失比例过高(如超过70%)且重要性低时,删除该特征可避免引入噪声;均值/中位数填充(A、B)适用于低缺失率的数值型特征;KNN填充(D)适用于缺失率中等且特征间相关性强的场景。

以下哪种算法属于监督学习?

A.K-means聚类

B.主成分分析(PCA)

C.线性回归

D.关联规则挖掘(Apriori)

答案:C

解析:监督学习需要标注的训练数据(输入-输出对),线性回归通过拟合输入特征与目标变量的关系进行预测;无监督学习(A、B、D)仅通过输入数据发现模式,无需目标变量。

评估分类模型时,“精确率(Precision)”的计算公式是?

A.真阳性/(真阳性+假阳性)

B.真阳性/(真阳性+假阴性)

C.真阴性/(真阴性+假阳性)

D.(真阳性+真阴性)/(总样本数)

答案:A

解析:精确率衡量预测为正类的样本中实际为正类的比例(TP/(TP+FP));B是召回率(Recall),C是真负率(Specificity),D是准确率(Accuracy)。

以下哪项是t检验的前提假设?

A.数据服从卡方分布

B.两组样本方差齐性

C.样本量大于30

D.变量为分类变量

答案:B

解析:t检验要求样本来自正态分布总体,且两组样本方差齐性(方差相等);卡方分布(A)是卡方检验的前提;样本量大于30(C)是z检验的近似条件;t检验适用于数值型变量(D错误)。

数据可视化中,用于展示三个变量间关系的最佳图表是?

A.折线图

B.散点图矩阵

C.箱线图

D.热力图

答案:B

解析:散点图矩阵可同时展示多个变量两两之间的散点关系(如X、Y、Z三个变量的X-Y、X-Z、Y-Z散点图);折线图(A)适合时间序列趋势,箱线图(C)展示分布,热力图(D)展示矩阵数据的密度或相关性。

特征选择中,“互信息法”主要用于衡量?

A.特征与目标变量的线性相关性

B.特征与目标变量的非线性相关性

C.特征间的多重共线性

D.特征的方差大小

答案:B

解析:互信息(MutualInformation)用于度量两个变量间的统计依赖关系,可捕捉线性和非线性相关性;线性相关性(A)用皮尔逊相关系数衡量;多重共线性(C)用VIF检验;方差大小(D)是方差阈值法的依据。

正则化(Regularization)的主要目的是?

A.提高模型在训练集上的准确率

B.减少模型的偏差

C.防止过拟合

D.加速模型训练速度

答案:C

解析:正则化通过在损失函数中添加惩罚项(如L1/L2范数),限制模型复杂度,避免模型过度拟合训练数据中的噪声;提高训练准确率(A)是过拟合的表现,减少偏差(B)需增加模型复杂度,加速训练(D)依赖优化算法。

以下哪种数据库适合存储非结构化数据?

A.关系型数据库(如MySQL)

B.键值数据库(如Redis)

C.文档数据库(如MongoDB)

D.列存储数据库(如HBase)

答案:C

解析:文档数据库(如MongoDB)支持存储半结构化/非结构化的JSON格式文档,适合灵活的非结构化数据;关系型数据库(A)要求结构化表格,键值数据库(B)适合简单键值对,列存储(D)适合海量结构化数据。

以下哪项是Hadoop生态中负责资源调度的组件?

A.HDFS

B.MapReduce

C.YARN

D.Hive

答案:C

解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的分配和任务调度;HDFS(A)是分布式文件系统,MapReduce(B)是计算框架,Hive(D)是数据仓库工具。

二、多项选择题(共10题,每题2分,共20分)

数据清洗的常见步骤包括?(至少2个正确选项)

A.处理缺失值

B.特征标准化

C.检测异常值

D.计算特征重要性

答案:AC

解析:数据清洗主要解决数据质量问题,包括缺失值处理(A)、异常值检测(C)、纠正格式错误、删除重复值等;特征标准化(B)属于特征工程,计算特征重要性(D)是模型训练后的分析步

文档评论(0)

杜家小钰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档