2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1229）.docxVIP

下载本文档

0
0
约7.35千字
约 11页
2026-01-20 发布于江苏
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1229）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

数据科学的核心目标是：

A.存储海量数据

B.从数据中提取有价值的信息

C.开发高性能数据库

D.设计数据可视化界面

答案：B

解析：数据科学的核心是通过统计学、机器学习等方法从数据中发现规律、提取价值（B正确）。存储数据（A）是数据库技术范畴，开发数据库（C）属于系统工程，可视化（D）是结果呈现手段，均非核心目标。

以下哪项属于数据清洗的典型操作？

A.主成分分析（PCA）

B.处理缺失值

C.计算相关系数

D.构建决策树模型

答案：B

解析：数据清洗主要解决数据质量问题，包括处理缺失值、异常值、重复值等（B正确）。PCA是降维（A），相关系数是统计分析（C），决策树是建模（D），均不属于清洗操作。

监督学习与无监督学习的主要区别在于：

A.是否使用标签数据

B.模型复杂度不同

C.训练速度差异

D.是否需要特征工程

答案：A

解析：监督学习需要标注的训练数据（如分类的标签），无监督学习处理无标签数据（如聚类）（A正确）。模型复杂度（B）、训练速度（C）、特征工程（D）是次要差异。

以下哪种统计量用于衡量数据的离散程度？

A.均值

B.中位数

C.标准差

D.众数

答案：C

解析：标准差（或方差）反映数据与均值的偏离程度，是离散程度指标（C正确）。均值（A）、中位数（B）、众数（D）均为集中趋势指标。

数据可视化中，“避免使用3D图表”的主要原因是：

A.3D图表技术实现复杂

B.3D效果可能扭曲数据真实比例

C.3D图表不符合行业规范

D.3D图表无法展示时间序列

答案：B

解析：3D图表的透视效果可能导致视觉误差（如柱状图高度被倾斜视角放大），影响数据准确性判断（B正确）。技术复杂度（A）、规范（C）、时间序列（D）均非核心原因。

特征工程中，“独热编码（One-HotEncoding）”主要用于处理：

A.连续型特征

B.高基数类别特征

C.缺失值特征

D.有序类别特征

答案：B

解析：独热编码将类别特征转换为二进制向量（如“颜色=红/蓝/绿”转为[1,0,0]等），适用于无序、低基数类别特征（B正确）。连续型（A）用标准化，有序类别（D）用标签编码。

模型过拟合的典型表现是：

A.训练集和测试集准确率都很低

B.训练集准确率高，测试集准确率低

C.训练集准确率低，测试集准确率高

D.训练集和测试集准确率都很高

答案：B

解析：过拟合时模型过度学习训练集的噪声，导致对新数据（测试集）泛化能力差（B正确）。A是欠拟合，D是理想状态。

以下属于大数据处理框架的是：

A.SQLServer

B.TensorFlow

C.HadoopMapReduce

D.Excel

答案：C

解析：HadoopMapReduce是分布式计算框架，用于处理海量数据（C正确）。SQLServer（A）是关系型数据库，TensorFlow（B）是深度学习框架，Excel（D）是桌面工具。

假设检验中，“拒绝原假设”的依据是：

A.p值大于显著性水平α

B.p值小于显著性水平α

C.置信区间包含原假设值

D.效应量小于临界值

答案：B

解析：当p值（观测到极端结果的概率）小于α（如0.05）时，认为原假设不成立，拒绝原假设（B正确）。A会保留原假设，C是保留原假设的另一种表述。

数据伦理的核心原则不包括：

A.数据隐私保护

B.算法公平性

C.数据采集的合法性

D.模型预测的高准确率

答案：D

解析：数据伦理关注数据使用的道德规范（如隐私、公平、合法），模型准确率是技术指标（D错误）。

二、多项选择题（共10题，每题2分，共20分）

数据预处理的主要步骤包括：

A.数据清洗

B.特征工程

C.模型训练

D.数据标准化

答案：ABD

解析：预处理是建模前的准备，包括清洗（A）、特征工程（B）、标准化（D）。模型训练（C）属于建模阶段。

以下属于监督学习算法的有：

A.K-means聚类

B.逻辑回归

C.随机森林

D.主成分分析

答案：BC

解析：监督学习需要标签，逻辑回归（分类）、随机森林（分类/回归）属于此类（BC正确）。K-means（A）是无监督聚类，PCA（D）是降维。

特征选择的常用方法包括：

A.相关系数法

B.递归特征消除（RFE）

C.独热编码

D.卡方检验

答案：ABD

解析：相关系数（衡量特征与目标的相关性）、RFE（递归剔除不重要特征）、卡方检验（分类特征与目标的独立性检验）均为特征选择方法（ABD正确）。独热编码（C）是特征转换。

以下数据可视化工具中，支持交互式可视化的有：

A.Tableau

B.Matplotlib

您可能关注的文档

文档评论（0）

182****1636 + 关注: 实名认证

文档贡献者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2025年12月12日上传了教师资格证

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1229）.docxVIP