2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1007）.docxVIP

下载本文档

0
0
约7.09千字
约 11页
2025-10-30 发布于江苏
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1007）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

处理类别变量的缺失值时，最不适用的方法是（）

A.用该类别的众数填充

B.用“未知”作为新类别填充

C.用均值填充

D.通过决策树模型预测填充

答案：C

解析：类别变量属于离散型数据，无数值意义，均值（平均值）仅适用于数值型变量。A（众数是类别变量最常见值）、B（新增类别保留缺失信息）、D（模型预测利用特征关联）均为合理方法。

以下哪项是防止过拟合的典型方法？（）

A.增加模型复杂度

B.减少训练数据量

C.L2正则化

D.移除验证集

答案：C

解析：L2正则化通过在损失函数中添加权重平方和，限制模型参数大小，降低复杂度，防止过拟合。A（增加复杂度会加剧过拟合）、B（数据量减少易导致过拟合）、D（验证集用于评估泛化能力，移除会失去调参依据）均错误。

中心极限定理的核心结论是（）

A.样本均值的分布趋近于均匀分布

B.无论总体分布如何，样本均值的分布趋近于正态分布（样本量足够大）

C.总体方差等于样本方差

D.中位数比均值更稳健

答案：B

解析：中心极限定理指出，当样本量足够大时，独立同分布的随机变量的均值近似服从正态分布，与总体分布无关。A（应为正态分布）、C（总体方差与样本方差无必然相等）、D（描述稳健性，与中心极限定理无关）错误。

混淆矩阵中，“召回率（Recall）”的计算公式是（）

A.TP/(TP+FP)

B.TP/(TP+FN)

C.TN/(TN+FP)

D.(TP+TN)/(TP+TN+FP+FN)

答案：B

解析：召回率衡量正类样本被正确识别的比例，公式为TP（真正例）/(TP+FN（假负例）)。A是精确率（Precision），C是真负率（Specificity），D是准确率（Accuracy）。

以下哪种数据可视化方法最适合展示变量间的相关性？（）

A.柱状图

B.散点图

C.箱线图

D.饼图

答案：B

解析：散点图通过二维坐标展示两个变量的取值，可直观观察相关性（如正相关、负相关、无相关）。A（比较类别间数值）、C（展示数据分布）、D（展示比例）均不直接反映相关性。

线性回归模型的基本假设不包括（）

A.误差项服从正态分布

B.自变量与因变量线性相关

C.自变量间无多重共线性

D.样本量必须大于特征数

答案：D

解析：线性回归的经典假设包括线性关系（B）、误差正态（A）、同方差、无自相关、自变量外生等。多重共线性会影响系数估计，但非基本假设（仅影响模型稳定性）；样本量大于特征数是避免欠定问题的实践要求，非理论假设（D错误）。

以下属于非结构化数据的是（）

A.员工年龄表

B.客户通话录音

C.产品销售明细表

D.学生成绩数据库

答案：B

解析：非结构化数据无固定格式（如文本、音频、视频），通话录音属于音频数据。A、C、D均为结构化表格数据。

大数据技术中，Hadoop的核心组件不包括（）

A.HDFS

B.MapReduce

C.HBase

D.Spark

答案：D

解析：Hadoop核心是分布式文件系统HDFS和计算框架MapReduce，HBase是基于HDFS的分布式数据库。Spark是独立的计算框架，不属于Hadoop原生组件（D错误）。

贝叶斯定理的表达式为（）

A.P(A|B)=P(B|A)P(A)/P(B)

B.P(A∪B)=P(A)+P(B)-P(A∩B)

C.P(A∩B)=P(A)P(B)

D.P(A|B)=P(A)

答案：A

解析：贝叶斯定理用于条件概率转换，公式为后验概率P(A|B)=[似然P(B|A)×先验P(A)]/证据P(B)。B是概率加法公式，C是独立事件概率乘法，D是独立事件条件概率。

数据伦理的核心原则不包括（）

A.数据隐私保护

B.算法公平性

C.数据采集的全面性

D.结果可解释性

答案：C

解析：数据伦理关注隐私（A）、公平（B）、透明（D）等，而“全面性”是数据质量要求，与伦理无直接关联（C错误）。

二、多项选择题（共10题，每题2分，共20分）（每题至少2个正确选项）

以下属于特征工程的步骤有（）

A.缺失值填充

B.独热编码（One-HotEncoding）

C.主成分分析（PCA）

D.计算特征重要性

答案：ABCD

解析：特征工程包括数据清洗（A）、特征转换（B）、特征提取（C）、特征选择（D）等全流程操作，均属于特征工程范畴。

监督学习的典型任务包括（）

A.分类

B.回归

C.聚类

D.异常检测

答案：AB

解析：监督学习需要标签数据，任务包括分类（预测类别）和回归（预测连续值）。C（无监督）、D（通常无监督或半监督）错误。

以下可

您可能关注的文档

2025年志愿服务管理师考试题库（附答案和详细解析）（1005）.docx

文档评论（0）

nastasia + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1007）.docxVIP