2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1213).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1213).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种数据清洗方法最适用于处理数值型特征中的偏态分布缺失值?

A.用均值填充

B.用中位数填充

C.用众数填充

D.直接删除缺失行

答案:B

解析:对于数值型特征的缺失值填充,均值易受极端值影响(尤其偏态分布时),中位数更能反映数据集中趋势(正确);众数适用于分类型数据(C错误);直接删除会导致数据损失(D错误)。

在机器学习中,精确率(Precision)的计算公式是?

A.真阳性/(真阳性+假阳性)

B.真阳性/(真阳性+假阴性)

C.真阴性/(真阴性+假阳性)

D.(真阳性+真阴性)/(总样本数)

答案:A

解析:精确率关注“预测为正的样本中实际为正的比例”,公式为TP/(TP+FP)(A正确);B是召回率(Recall),C是真负率(Specificity),D是准确率(Accuracy)。

以下哪项不属于监督学习任务?

A.预测用户是否会购买商品(分类)

B.识别图像中的猫和狗(分类)

C.根据用户行为聚类划分客户群体(聚类)

D.预测房价(回归)

答案:C

解析:监督学习需要标签(如分类、回归),无监督学习无标签(如聚类)(C正确);A、B、D均有明确标签。

在SQL中,用于返回指定列不重复值的关键字是?

A.DISTINCT

B.GROUPBY

C.HAVING

D.ORDERBY

答案:A

解析:DISTINCT用于去重(A正确);GROUPBY用于分组统计,HAVING筛选分组后结果,ORDERBY用于排序。

以下哪种技术常用于降低高维数据的维度?

A.梯度下降

B.主成分分析(PCA)

C.随机森林

D.K近邻(KNN)

答案:B

解析:PCA通过线性变换将高维数据投影到低维空间(B正确);梯度下降是优化算法(A错误),随机森林是分类/回归模型(C错误),KNN是分类算法(D错误)。

在Python中,pandas库中用于合并两个DataFrame的函数是?

A.pd.merge()

B.pd.concat()

C.pd.append()

D.pd.join()

答案:A

解析:pd.merge()基于共同列合并(类似SQL的JOIN)(A正确);pd.concat()按行/列堆叠,pd.append()已弃用,pd.join()基于索引合并。

以下哪项是决策树过拟合的典型表现?

A.训练集准确率高,测试集准确率低

B.训练集准确率低,测试集准确率高

C.训练集和测试集准确率都低

D.训练集和测试集准确率相近

答案:A

解析:过拟合表现为模型在训练数据上过度学习噪声,导致泛化能力差(训练集准确率高,测试集低)(A正确);B是欠拟合后优化成功,C是欠拟合,D是泛化能力好。

以下哪种可视化工具最适合展示多个变量间的相关关系?

A.柱状图

B.散点图矩阵

C.箱线图

D.折线图

答案:B

解析:散点图矩阵可展示每对变量的散点关系及对角线的分布(B正确);柱状图用于比较类别,箱线图展示分布,折线图展示趋势。

在统计假设检验中,显著性水平α表示?

A.犯第一类错误(弃真)的概率

B.犯第二类错误(取伪)的概率

C.原假设为真的概率

D.备择假设为真的概率

答案:A

解析:α是拒绝原假设(H0)时H0实际为真的概率(第一类错误)(A正确);β是第二类错误概率(B错误),C、D无法直接通过α表示。

以下哪项属于数据科学伦理问题?

A.数据标准化处理

B.用户隐私泄露风险

C.特征工程中的独热编码

D.模型超参数调优

答案:B

解析:伦理问题涉及隐私保护、算法公平性等(B正确);A、C、D均为技术操作,无伦理风险。

二、多项选择题(共10题,每题2分,共20分)

以下属于数据清洗范畴的操作有?(至少2个正确选项)

A.处理重复值

B.对分类型特征进行独热编码

C.填补缺失值

D.去除异常值

答案:ACD

解析:数据清洗包括处理重复值(A)、缺失值(C)、异常值(D);独热编码属于特征工程(B错误)。

以下哪些指标可用于评估回归模型的性能?

A.均方误差(MSE)

B.R平方值(R2)

C.F1-score

D.平均绝对误差(MAE)

答案:ABD

解析:回归模型常用MSE(误差平方平均)、R2(解释方差比例)、MAE(绝对误差平均)(A、B、D正确);F1-score是分类指标(C错误)。

以下哪些是机器学习中的无监督学习算法?

A.K-means聚类

B.主成分分析(PCA)

C.支持向量机(SVM)

D.关联规则挖掘(Apriori)

答案:ABD

解析:无监督学习无标签,包括聚类(K-means)、降维(PCA)、关联规

您可能关注的文档

文档评论(0)

180****5323 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档