2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1103).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1103).docx

本文档由用户AI专业辅助创建,并经网站质量审核通过
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种缺失值处理方法最适用于正态分布的数值型数据?

A.均值填充

B.中位数填充

C.众数填充

D.直接删除

答案:A

解析:正态分布数据的均值、中位数、众数重合,均值能较好反映数据集中趋势,因此均值填充最适用。中位数适用于偏态分布(B错误),众数适用于分类型数据(C错误),直接删除会损失信息(D错误)。

分析某城市居民收入(明显右偏分布)的集中趋势时,最合理的统计量是?

A.均值

B.中位数

C.众数

D.方差

答案:B

解析:右偏分布中均值受极端大值影响会偏向右侧,中位数对极端值不敏感,更能反映数据中心位置(A错误)。众数反映最常见值,可能不代表整体趋势(C错误),方差是离散程度指标(D错误)。

以下属于监督学习算法的是?

A.K-means

B.PCA

C.SVM

D.关联规则挖掘

答案:C

解析:SVM(支持向量机)通过带标签数据训练分类或回归模型,属于监督学习。K-means(聚类)和PCA(降维)是无监督学习(A、B错误),关联规则挖掘(如Apriori)无需标签(D错误)。

关系型数据库中,第三范式(3NF)要求消除?

A.非主属性对主键的部分依赖

B.主属性对主键的部分依赖

C.非主属性对主键的传递依赖

D.主属性对主键的传递依赖

答案:C

解析:第一范式(1NF)要求原子性,第二范式(2NF)消除非主属性对主键的部分依赖(A错误),第三范式(3NF)消除非主属性对主键的传递依赖(C正确)。主属性依赖问题属于BCNF范畴(B、D错误)。

对“性别”字段(取值为“男”“女”)进行特征工程时,最常用的处理方法是?

A.标准化(Z-score)

B.独热编码(One-HotEncoding)

C.归一化(Min-Max)

D.对数变换

答案:B

解析:性别是分类型变量(无顺序),独热编码将其转换为二进制向量(如[1,0]和[0,1]),避免模型错误理解顺序关系。标准化/归一化适用于数值型数据(A、C错误),对数变换用于处理偏态数值(D错误)。

用于直观展示数据分布的偏态、峰度及异常值的可视化图表是?

A.箱线图(BoxPlot)

B.折线图(LineChart)

C.散点图(ScatterPlot)

D.柱状图(BarChart)

答案:A

解析:箱线图通过四分位数、中位数和whiskers直接展示数据分布范围、对称性及异常值(A正确)。折线图用于时间序列趋势(B错误),散点图展示变量间相关性(C错误),柱状图比较分类变量数值(D错误)。

机器学习中,L1正则化的主要作用是?

A.加速模型训练

B.产生稀疏解(特征选择)

C.防止欠拟合

D.提高模型复杂度

答案:B

解析:L1正则化(Lasso)通过在损失函数中加入参数绝对值之和,促使部分参数变为0,实现特征选择(B正确)。加速训练依赖优化器(A错误),防止欠拟合需降低正则化强度(C错误),L1会降低复杂度(D错误)。

Hadoop生态中,HDFS(HadoopDistributedFileSystem)的核心功能是?

A.分布式计算

B.资源调度

C.分布式存储

D.实时流处理

答案:C

解析:HDFS是Hadoop的分布式存储系统,负责将大文件分块存储在集群节点中(C正确)。分布式计算由MapReduce或Spark实现(A错误),资源调度由YARN负责(B错误),实时流处理是Flink的功能(D错误)。

时间序列分析中,ARIMA(p,d,q)模型的参数“d”表示?

A.自回归阶数

B.移动平均阶数

C.差分次数

D.季节周期

答案:C

解析:ARIMA模型中,p是自回归(AR)阶数,d是差分次数(用于消除非平稳性),q是移动平均(MA)阶数(C正确)。季节周期是SARIMA的参数(D错误)。

数据伦理中,“用户在提供数据前需明确知晓数据用途”遵循的核心原则是?

A.知情同意

B.最小必要

C.可追溯性

D.匿名化

答案:A

解析:知情同意要求数据主体在提供数据前充分了解数据收集、使用和共享的目的(A正确)。最小必要指仅收集必要数据(B错误),可追溯性强调数据流向记录(C错误),匿名化是技术手段(D错误)。

二、多项选择题(共10题,每题2分,共20分)

数据清洗的主要内容包括?(至少2个正确选项)

A.处理缺失值

B.识别异常值

C.消除重复记录

D.特征重要性排序

答案:ABC

解析:数据清洗聚焦于解决数据质量问题,包括缺失值(A)、异常值(B)、重复值(C)的处理。特征重要性排序属于特征工程(D错误)。

以下属于监督学习任务的有?(至少2个正确选项)

A.垃圾

文档评论(0)

+ 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档