2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1007).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1007).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

处理类别变量的缺失值时,最不适用的方法是()

A.用该类别的众数填充

B.用“未知”作为新类别填充

C.用均值填充

D.通过决策树模型预测填充

答案:C

解析:类别变量属于离散型数据,无数值意义,均值(平均值)仅适用于数值型变量。A(众数是类别变量最常见值)、B(新增类别保留缺失信息)、D(模型预测利用特征关联)均为合理方法。

以下哪项是防止过拟合的典型方法?()

A.增加模型复杂度

B.减少训练数据量

C.L2正则化

D.移除验证集

答案:C

解析:L2正则化通过在损失函数中添加权重平方和,限制模型参数大小,降低复杂度,防止过拟合。A(增加复杂度会加剧过拟合)、B(数据量减少易导致过拟合)、D(验证集用于评估泛化能力,移除会失去调参依据)均错误。

中心极限定理的核心结论是()

A.样本均值的分布趋近于均匀分布

B.无论总体分布如何,样本均值的分布趋近于正态分布(样本量足够大)

C.总体方差等于样本方差

D.中位数比均值更稳健

答案:B

解析:中心极限定理指出,当样本量足够大时,独立同分布的随机变量的均值近似服从正态分布,与总体分布无关。A(应为正态分布)、C(总体方差与样本方差无必然相等)、D(描述稳健性,与中心极限定理无关)错误。

混淆矩阵中,“召回率(Recall)”的计算公式是()

A.TP/(TP+FP)

B.TP/(TP+FN)

C.TN/(TN+FP)

D.(TP+TN)/(TP+TN+FP+FN)

答案:B

解析:召回率衡量正类样本被正确识别的比例,公式为TP(真正例)/(TP+FN(假负例))。A是精确率(Precision),C是真负率(Specificity),D是准确率(Accuracy)。

以下哪种数据可视化方法最适合展示变量间的相关性?()

A.柱状图

B.散点图

C.箱线图

D.饼图

答案:B

解析:散点图通过二维坐标展示两个变量的取值,可直观观察相关性(如正相关、负相关、无相关)。A(比较类别间数值)、C(展示数据分布)、D(展示比例)均不直接反映相关性。

线性回归模型的基本假设不包括()

A.误差项服从正态分布

B.自变量与因变量线性相关

C.自变量间无多重共线性

D.样本量必须大于特征数

答案:D

解析:线性回归的经典假设包括线性关系(B)、误差正态(A)、同方差、无自相关、自变量外生等。多重共线性会影响系数估计,但非基本假设(仅影响模型稳定性);样本量大于特征数是避免欠定问题的实践要求,非理论假设(D错误)。

以下属于非结构化数据的是()

A.员工年龄表

B.客户通话录音

C.产品销售明细表

D.学生成绩数据库

答案:B

解析:非结构化数据无固定格式(如文本、音频、视频),通话录音属于音频数据。A、C、D均为结构化表格数据。

大数据技术中,Hadoop的核心组件不包括()

A.HDFS

B.MapReduce

C.HBase

D.Spark

答案:D

解析:Hadoop核心是分布式文件系统HDFS和计算框架MapReduce,HBase是基于HDFS的分布式数据库。Spark是独立的计算框架,不属于Hadoop原生组件(D错误)。

贝叶斯定理的表达式为()

A.P(A|B)=P(B|A)P(A)/P(B)

B.P(A∪B)=P(A)+P(B)-P(A∩B)

C.P(A∩B)=P(A)P(B)

D.P(A|B)=P(A)

答案:A

解析:贝叶斯定理用于条件概率转换,公式为后验概率P(A|B)=[似然P(B|A)×先验P(A)]/证据P(B)。B是概率加法公式,C是独立事件概率乘法,D是独立事件条件概率。

数据伦理的核心原则不包括()

A.数据隐私保护

B.算法公平性

C.数据采集的全面性

D.结果可解释性

答案:C

解析:数据伦理关注隐私(A)、公平(B)、透明(D)等,而“全面性”是数据质量要求,与伦理无直接关联(C错误)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于特征工程的步骤有()

A.缺失值填充

B.独热编码(One-HotEncoding)

C.主成分分析(PCA)

D.计算特征重要性

答案:ABCD

解析:特征工程包括数据清洗(A)、特征转换(B)、特征提取(C)、特征选择(D)等全流程操作,均属于特征工程范畴。

监督学习的典型任务包括()

A.分类

B.回归

C.聚类

D.异常检测

答案:AB

解析:监督学习需要标签数据,任务包括分类(预测类别)和回归(预测连续值)。C(无监督)、D(通常无监督或半监督)错误。

以下可

文档评论(0)

nastasia + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档