2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1024).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1024).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

数据科学项目的核心流程通常遵循以下哪个框架?

A.数据收集→模型训练→结果输出

B.CRISP-DM(跨行业数据挖掘标准流程)

C.可视化→清洗→建模

D.特征工程→算法选择→参数调优

答案:B

解析:CRISP-DM(跨行业数据挖掘标准流程)是数据科学项目的经典方法论,包含业务理解、数据理解、数据准备、建模、评估、部署6个阶段,覆盖完整项目周期。A选项流程不完整,忽略业务目标;C选项顺序错误(应先数据理解再可视化);D选项仅涉及建模阶段,无法覆盖全流程。

以下哪种方法属于特征工程中的“特征提取”?

A.对类别型变量进行独热编码(One-HotEncoding)

B.计算两个数值型特征的乘积作为新特征

C.使用主成分分析(PCA)降维

D.去除方差低于阈值的特征

答案:C

解析:特征提取是通过现有特征生成更抽象的新特征(如降维),PCA通过线性变换将高维数据投影到低维空间,属于特征提取。A是特征编码(处理类别变量);B是特征构造(生成新组合特征);D是特征选择(过滤冗余特征)。

在机器学习中,“过拟合”的典型表现是?

A.训练集和测试集误差均很高

B.训练集误差低,测试集误差高

C.训练集误差高,测试集误差低

D.训练集和测试集误差均很低

答案:B

解析:过拟合指模型过度学习训练数据的噪声和细节,导致对新数据(测试集)泛化能力差,因此训练误差低但测试误差高。A是欠拟合表现;C和D不符合实际规律。

以下哪项是SQL中用于筛选行的子句?

A.GROUPBY

B.HAVING

C.WHERE

D.ORDERBY

答案:C

解析:WHERE子句用于在数据检索时过滤行(满足条件的行才会被选中)。A用于分组统计;B用于对分组后的结果过滤;D用于排序。

以下哪种可视化图表最适合展示两个连续变量的相关性?

A.柱状图

B.散点图

C.饼图

D.箱线图

答案:B

解析:散点图通过横轴和纵轴分别表示两个连续变量,点的分布可直观反映变量间的相关关系(如正相关、负相关、无相关)。柱状图适合比较分类变量的数值;饼图展示比例;箱线图显示数据分布的统计量。

计算两个分类变量的相关性时,最常用的统计量是?

A.皮尔逊相关系数(PearsonCorrelation)

B.斯皮尔曼秩相关系数(Spearman’sRho)

C.卡方统计量(Chi-Square)

D.均方误差(MSE)

答案:C

解析:卡方检验用于检验两个分类变量的独立性,通过卡方统计量判断变量间是否存在显著关联。A用于连续变量线性相关;B用于有序变量或非线性相关;D是回归模型的损失函数。

以下哪个算法属于无监督学习?

A.逻辑回归(LogisticRegression)

B.K-means聚类

C.随机森林(RandomForest)

D.支持向量机(SVM)

答案:B

解析:无监督学习从无标签数据中发现模式,K-means通过数据点间距离自动分组,属于无监督。A、C、D均需要标签数据训练模型,属于监督学习。

在数据清洗中,“处理异常值”的主要目的是?

A.减少数据量以提升计算效率

B.避免异常值对模型性能的负面影响

C.确保数据符合正态分布

D.增加数据的多样性

答案:B

解析:异常值可能是噪声(如测量错误)或真实极端值,若不处理可能导致模型过拟合或参数估计偏差(如线性回归的均值受异常值影响大)。A是数据抽样的目的;C错误(数据不一定需要正态分布);D与异常值处理无关。

以下哪种工具最适合处理大规模非结构化数据的分布式计算?

A.Excel

B.Pandas

C.ApacheSpark

D.SQLServer

答案:C

解析:ApacheSpark是分布式计算框架,支持处理TB级以上的非结构化/半结构化数据(如日志、文本),通过RDD和DataFrame实现并行计算。A、B适用于小规模数据;D是关系型数据库,适合结构化数据。

在混淆矩阵中,“召回率(Recall)”的计算公式是?

A.TP/(TP+FP)

B.TP/(TP+FN)

C.TN/(TN+FP)

D.TN/(TN+FN)

答案:B

解析:召回率(查全率)衡量模型正确识别正类样本的能力,公式为真正例(TP)除以实际正类总数(TP+FN)。A是精确率(Precision);C是真负率(Specificity);D无实际意义。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于特征选择(FeatureSelection)方法的有?

A.卡方检验(Chi-SquareTest)

B.互信息(MutualInformat

文档评论(0)

eureka + 关注
实名认证
文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习,天天向上

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

相关文档