2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1218）.docxVIP

下载本文档

0
0
约8千字
约 11页
2026-01-21 发布于上海
举报

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1218）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是数据清洗的核心目标？

A.提升数据可视化效果

B.消除数据中的噪声、缺失值和异常值

C.直接生成预测模型

D.增加数据维度以丰富信息

答案：B

解析：数据清洗的核心是处理数据中的不完整（缺失值）、不一致（错误格式）和异常（离群值）问题，确保数据质量。选项A是数据可视化的目标，C是建模阶段的任务，D可能引入冗余信息，均不符合数据清洗的定义。

在统计学中，反映数据离散程度的指标是？

A.均值

B.中位数

C.方差

D.众数

答案：C

解析：方差（或标准差）衡量数据与其均值的偏离程度，是离散程度的核心指标。均值（A）、中位数（B）、众数（D）均反映数据集中趋势。

混淆矩阵中“真正类（TP）”指的是？

A.真实负类被预测为负类

B.真实正类被预测为正类

C.真实负类被预测为正类

D.真实正类被预测为负类

答案：B

解析：混淆矩阵中，TP（TruePositive）表示真实正类样本被正确预测为正类。A是TN（真负类），C是FP（假正类），D是FN（假负类）。

以下哪种算法属于监督学习？

A.K-means聚类

B.主成分分析（PCA）

C.线性回归

D.关联规则挖掘（Apriori）

答案：C

解析：监督学习需要标签数据，线性回归通过输入特征和目标变量（如房价）训练模型。其他选项均为无监督学习（K-means、PCA）或关联分析（Apriori）。

独热编码（One-HotEncoding）主要用于处理哪种类型的数据？

A.连续型数值

B.高基数类别特征

C.文本情感极性

D.时间序列数据

答案：B

解析：独热编码将类别特征（如“性别”：男/女）转换为二进制向量，适用于低基数类别特征（高基数可能导致维度爆炸）。连续型数值（A）通常用标准化处理，文本（C）常用词嵌入，时间序列（D）用滞后特征。

关系型数据库（RDBMS）的核心特点是？

A.支持非结构化数据存储

B.采用表结构（二维关系）组织数据

C.无固定Schema约束

D.适合实时高并发写入

答案：B

解析：关系型数据库基于关系模型，用表（行、列）存储结构化数据，有严格Schema（C错误）。非结构化数据（A）由NoSQL处理，实时高并发（D）是内存数据库特点。

Hadoop生态中，HDFS（Hadoop分布式文件系统）的主要功能是？

A.分布式计算框架

B.海量数据存储

C.资源调度管理

D.实时流处理

答案：B

解析：HDFS设计用于存储海量数据（通常GB到PB级），支持高容错。分布式计算（A）由MapReduce实现，资源调度（C）是YARN的功能，实时流处理（D）由Storm或Flink完成。

以下哪项是解决模型过拟合（Overfitting）的常用方法？

A.增加模型复杂度

B.减少训练数据量

C.引入正则化（Regularization）

D.降低特征维度

答案：C

解析：过拟合是模型对训练数据过度学习，正则化通过添加惩罚项限制模型复杂度（如L1/L2正则）。增加复杂度（A）、减少数据（B）会加剧过拟合，降低维度（D）可能丢失关键信息。

皮尔逊相关系数（PearsonCorrelation）的取值范围是？

A.[-1,1]

B.[0,1]

C.(-∞,+∞)

D.[0,+∞)

答案：A

解析：皮尔逊相关系数衡量两个变量的线性相关程度，取值范围为[-1,1]，绝对值越接近1表示相关性越强，正负表示正/负相关。

主成分分析（PCA）的核心目标是？

A.保留数据的类别标签信息

B.最大化数据的方差

C.最小化预测误差

D.提升模型的可解释性

答案：B

解析：PCA通过线性变换将高维数据投影到低维空间，目标是保留最大方差（即保留最主要的信息）。保留标签（A）是LDA（线性判别分析）的目标，最小化误差（C）是回归模型目标，可解释性（D）需结合业务理解。

二、多项选择题（共10题，每题2分，共20分）

数据预处理的主要步骤包括？

A.数据清洗

B.数据集成

C.数据变换

D.数据规约

答案：ABCD

解析：数据预处理是建模前的关键步骤，包括清洗（处理缺失/异常值）、集成（多源数据合并）、变换（标准化/归一化）、规约（降维/抽样），四者均为核心步骤。

以下属于监督学习算法的有？

A.逻辑回归（LogisticRegression）

B.支持向量机（SVM）

C.随机森林（RandomForest）

D.K-means

答案：ABC

解析：监督学习需要标签数据（如分类/回归任务），逻辑回归、SVM、随机森林均为典型监督学习算法。K-means（D）是无监督聚类算法。

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1218）.docxVIP

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1218）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档