2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1116）.docxVIP

下载本文档

0
0
约7.89千字
约 11页
2025-12-15 发布于上海
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1116）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪种方法最适用于处理数值型数据中的随机缺失值？

A.用众数填充

B.用均值填充

C.直接删除缺失行

D.用相邻值插值

答案：B

解析：数值型数据的随机缺失通常假设数据符合正态分布，均值能较好反映数据集中趋势（正确）；众数适用于分类型数据（A错误）；直接删除会导致数据量损失（C错误）；相邻值插值适用于时间序列数据（D错误）。

在机器学习中，以下哪项属于监督学习任务？

A.K-means聚类

B.主成分分析（PCA）

C.线性回归

D.t-SNE降维

答案：C

解析：监督学习需要标签数据，线性回归通过输入特征预测连续标签（正确）；聚类、降维均为无监督学习（A、B、D错误）。

混淆矩阵中，“假阳性（FalsePositive）”指的是？

A.实际为正类，模型预测为负类

B.实际为负类，模型预测为正类

C.实际为正类，模型预测为正类

D.实际为负类，模型预测为负类

答案：B

解析：假阳性（FP）是“误将负类判为正类”（正确）；A为假阴性（FN），C为真阳性（TP），D为真阴性（TN）（A、C、D错误）。

以下哪项不是关系型数据库（RDBMS）的特点？

A.支持SQL查询

B.采用表结构存储数据

C.适合非结构化数据存储

D.遵循ACID事务特性

答案：C

解析：关系型数据库适合结构化数据（如二维表），非结构化数据（如文本、图像）通常用NoSQL存储（正确）；A、B、D均为RDBMS核心特点（错误）。

数据可视化中，“箱线图（BoxPlot）”主要用于展示？

A.数据分布的集中趋势和离散程度

B.两个变量的相关关系

C.分类变量的频数分布

D.时间序列的变化趋势

答案：A

解析：箱线图通过四分位数展示数据的中位数、上下四分位数和异常值，反映集中与离散程度（正确）；散点图展示相关关系（B错误），柱状图展示频数（C错误），折线图展示时间趋势（D错误）。

以下哪种统计量对异常值最敏感？

A.中位数

B.众数

C.均值

D.四分位距（IQR）

答案：C

解析：均值受极端值影响显著（如1,2,3,100的均值为26.5）（正确）；中位数、众数、IQR对异常值不敏感（A、B、D错误）。

在Python中，Pandas库的dropna()函数默认会删除？

A.包含任意缺失值的行

B.包含任意缺失值的列

C.所有值均为缺失值的行

D.所有值均为缺失值的列

答案：A

解析：dropna()默认参数axis=0（行）、how=any，即删除有任意缺失值的行（正确）；how=all才删除全空行（C错误），列操作需axis=1（B、D错误）。

以下哪项属于集成学习（EnsembleLearning）方法？

A.逻辑回归

B.支持向量机（SVM）

C.随机森林（RandomForest）

D.K近邻（KNN）

答案：C

解析：随机森林通过集成多棵决策树提升性能（正确）；逻辑回归、SVM、KNN均为单模型（A、B、D错误）。

数据仓库（DataWarehouse）的核心目标是？

A.支持实时事务处理（OLTP）

B.支持历史数据的分析决策（OLAP）

C.存储原始未加工数据

D.实现高并发数据写入

答案：B

解析：数据仓库面向分析（OLAP），用于支持决策（正确）；OLTP是数据库的目标（A错误），数据仓库存储经过清洗整合的数据（C错误），高并发写入是数据库特性（D错误）。

在假设检验中，“第一类错误（TypeIError）”指的是？

A.拒绝了正确的原假设

B.接受了错误的原假设

C.拒绝了错误的原假设

D.接受了正确的原假设

答案：A

解析：第一类错误（α错误）是“弃真”（正确）；B为第二类错误（β错误），C为正确决策（功效），D为正确接受（A、C、D错误）。

二、多项选择题（共10题，每题2分，共20分）

以下属于特征工程（FeatureEngineering）的步骤有？

A.对数值型特征进行标准化（Z-score）

B.对分类型特征进行独热编码（One-HotEncoding）

C.构造新特征（如“收入/支出”比率）

D.调整模型超参数（如学习率）

答案：ABC

解析：特征工程关注数据本身的处理与优化，包括缩放、编码、构造新特征（A、B、C正确）；模型调参属于模型优化阶段（D错误）。

以下哪些工具可用于数据可视化？

A.Matplotlib

B.Seaborn

C.Tableau

D.TensorFlow

答案：ABC

解析：Matplotlib、Seaborn是Python可视化库，Tableau是商业BI工具（A、B、C正确）；TensorFlow是深

您可能关注的文档

文档评论（0）

MenG + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1116）.docxVIP