2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1024）.docxVIP

下载本文档

1
0
约8.14千字
约 11页
2025-11-07 发布于上海
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1024）.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

数据科学项目的核心流程通常遵循以下哪个框架？

A.数据收集→模型训练→结果输出

B.CRISP-DM（跨行业数据挖掘标准流程）

C.可视化→清洗→建模

D.特征工程→算法选择→参数调优

答案：B

解析：CRISP-DM（跨行业数据挖掘标准流程）是数据科学项目的经典方法论，包含业务理解、数据理解、数据准备、建模、评估、部署6个阶段，覆盖完整项目周期。A选项流程不完整，忽略业务目标；C选项顺序错误（应先数据理解再可视化）；D选项仅涉及建模阶段，无法覆盖全流程。

以下哪种方法属于特征工程中的“特征提取”？

A.对类别型变量进行独热编码（One-HotEncoding）

B.计算两个数值型特征的乘积作为新特征

C.使用主成分分析（PCA）降维

D.去除方差低于阈值的特征

答案：C

解析：特征提取是通过现有特征生成更抽象的新特征（如降维），PCA通过线性变换将高维数据投影到低维空间，属于特征提取。A是特征编码（处理类别变量）；B是特征构造（生成新组合特征）；D是特征选择（过滤冗余特征）。

在机器学习中，“过拟合”的典型表现是？

A.训练集和测试集误差均很高

B.训练集误差低，测试集误差高

C.训练集误差高，测试集误差低

D.训练集和测试集误差均很低

答案：B

解析：过拟合指模型过度学习训练数据的噪声和细节，导致对新数据（测试集）泛化能力差，因此训练误差低但测试误差高。A是欠拟合表现；C和D不符合实际规律。

以下哪项是SQL中用于筛选行的子句？

A.GROUPBY

B.HAVING

C.WHERE

D.ORDERBY

答案：C

解析：WHERE子句用于在数据检索时过滤行（满足条件的行才会被选中）。A用于分组统计；B用于对分组后的结果过滤；D用于排序。

以下哪种可视化图表最适合展示两个连续变量的相关性？

A.柱状图

B.散点图

C.饼图

D.箱线图

答案：B

解析：散点图通过横轴和纵轴分别表示两个连续变量，点的分布可直观反映变量间的相关关系（如正相关、负相关、无相关）。柱状图适合比较分类变量的数值；饼图展示比例；箱线图显示数据分布的统计量。

计算两个分类变量的相关性时，最常用的统计量是？

A.皮尔逊相关系数（PearsonCorrelation）

B.斯皮尔曼秩相关系数（Spearman’sRho）

C.卡方统计量（Chi-Square）

D.均方误差（MSE）

答案：C

解析：卡方检验用于检验两个分类变量的独立性，通过卡方统计量判断变量间是否存在显著关联。A用于连续变量线性相关；B用于有序变量或非线性相关；D是回归模型的损失函数。

以下哪个算法属于无监督学习？

A.逻辑回归（LogisticRegression）

B.K-means聚类

C.随机森林（RandomForest）

D.支持向量机（SVM）

答案：B

解析：无监督学习从无标签数据中发现模式，K-means通过数据点间距离自动分组，属于无监督。A、C、D均需要标签数据训练模型，属于监督学习。

在数据清洗中，“处理异常值”的主要目的是？

A.减少数据量以提升计算效率

B.避免异常值对模型性能的负面影响

C.确保数据符合正态分布

D.增加数据的多样性

答案：B

解析：异常值可能是噪声（如测量错误）或真实极端值，若不处理可能导致模型过拟合或参数估计偏差（如线性回归的均值受异常值影响大）。A是数据抽样的目的；C错误（数据不一定需要正态分布）；D与异常值处理无关。

以下哪种工具最适合处理大规模非结构化数据的分布式计算？

A.Excel

B.Pandas

C.ApacheSpark

D.SQLServer

答案：C

解析：ApacheSpark是分布式计算框架，支持处理TB级以上的非结构化/半结构化数据（如日志、文本），通过RDD和DataFrame实现并行计算。A、B适用于小规模数据；D是关系型数据库，适合结构化数据。

在混淆矩阵中，“召回率（Recall）”的计算公式是？

A.TP/(TP+FP)

B.TP/(TP+FN)

C.TN/(TN+FP)

D.TN/(TN+FN)

答案：B

解析：召回率（查全率）衡量模型正确识别正类样本的能力，公式为真正例（TP）除以实际正类总数（TP+FN）。A是精确率（Precision）；C是真负率（Specificity）；D无实际意义。

二、多项选择题（共10题，每题2分，共20分）（每题至少2个正确选项）

以下属于特征选择（FeatureSelection）方法的有？

A.卡方检验（Chi-SquareTest）

B.互信息（MutualInformat

您可能关注的文档

文档评论（0）

eureka + 关注: 实名认证

文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习，天天向上

咨询Ta 进入空间

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1024）.docxVIP