2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1218).docxVIP

  • 0
  • 0
  • 约8千字
  • 约 11页
  • 2026-01-21 发布于上海
  • 举报

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1218).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是数据清洗的核心目标?

A.提升数据可视化效果

B.消除数据中的噪声、缺失值和异常值

C.直接生成预测模型

D.增加数据维度以丰富信息

答案:B

解析:数据清洗的核心是处理数据中的不完整(缺失值)、不一致(错误格式)和异常(离群值)问题,确保数据质量。选项A是数据可视化的目标,C是建模阶段的任务,D可能引入冗余信息,均不符合数据清洗的定义。

在统计学中,反映数据离散程度的指标是?

A.均值

B.中位数

C.方差

D.众数

答案:C

解析:方差(或标准差)衡量数据与其均值的偏离程度,是离散程度的核心指标。均值(A)、中位数(B)、众数(D)均反映数据集中趋势。

混淆矩阵中“真正类(TP)”指的是?

A.真实负类被预测为负类

B.真实正类被预测为正类

C.真实负类被预测为正类

D.真实正类被预测为负类

答案:B

解析:混淆矩阵中,TP(TruePositive)表示真实正类样本被正确预测为正类。A是TN(真负类),C是FP(假正类),D是FN(假负类)。

以下哪种算法属于监督学习?

A.K-means聚类

B.主成分分析(PCA)

C.线性回归

D.关联规则挖掘(Apriori)

答案:C

解析:监督学习需要标签数据,线性回归通过输入特征和目标变量(如房价)训练模型。其他选项均为无监督学习(K-means、PCA)或关联分析(Apriori)。

独热编码(One-HotEncoding)主要用于处理哪种类型的数据?

A.连续型数值

B.高基数类别特征

C.文本情感极性

D.时间序列数据

答案:B

解析:独热编码将类别特征(如“性别”:男/女)转换为二进制向量,适用于低基数类别特征(高基数可能导致维度爆炸)。连续型数值(A)通常用标准化处理,文本(C)常用词嵌入,时间序列(D)用滞后特征。

关系型数据库(RDBMS)的核心特点是?

A.支持非结构化数据存储

B.采用表结构(二维关系)组织数据

C.无固定Schema约束

D.适合实时高并发写入

答案:B

解析:关系型数据库基于关系模型,用表(行、列)存储结构化数据,有严格Schema(C错误)。非结构化数据(A)由NoSQL处理,实时高并发(D)是内存数据库特点。

Hadoop生态中,HDFS(Hadoop分布式文件系统)的主要功能是?

A.分布式计算框架

B.海量数据存储

C.资源调度管理

D.实时流处理

答案:B

解析:HDFS设计用于存储海量数据(通常GB到PB级),支持高容错。分布式计算(A)由MapReduce实现,资源调度(C)是YARN的功能,实时流处理(D)由Storm或Flink完成。

以下哪项是解决模型过拟合(Overfitting)的常用方法?

A.增加模型复杂度

B.减少训练数据量

C.引入正则化(Regularization)

D.降低特征维度

答案:C

解析:过拟合是模型对训练数据过度学习,正则化通过添加惩罚项限制模型复杂度(如L1/L2正则)。增加复杂度(A)、减少数据(B)会加剧过拟合,降低维度(D)可能丢失关键信息。

皮尔逊相关系数(PearsonCorrelation)的取值范围是?

A.[-1,1]

B.[0,1]

C.(-∞,+∞)

D.[0,+∞)

答案:A

解析:皮尔逊相关系数衡量两个变量的线性相关程度,取值范围为[-1,1],绝对值越接近1表示相关性越强,正负表示正/负相关。

主成分分析(PCA)的核心目标是?

A.保留数据的类别标签信息

B.最大化数据的方差

C.最小化预测误差

D.提升模型的可解释性

答案:B

解析:PCA通过线性变换将高维数据投影到低维空间,目标是保留最大方差(即保留最主要的信息)。保留标签(A)是LDA(线性判别分析)的目标,最小化误差(C)是回归模型目标,可解释性(D)需结合业务理解。

二、多项选择题(共10题,每题2分,共20分)

数据预处理的主要步骤包括?

A.数据清洗

B.数据集成

C.数据变换

D.数据规约

答案:ABCD

解析:数据预处理是建模前的关键步骤,包括清洗(处理缺失/异常值)、集成(多源数据合并)、变换(标准化/归一化)、规约(降维/抽样),四者均为核心步骤。

以下属于监督学习算法的有?

A.逻辑回归(LogisticRegression)

B.支持向量机(SVM)

C.随机森林(RandomForest)

D.K-means

答案:ABC

解析:监督学习需要标签数据(如分类/回归任务),逻辑回归、SVM、随机森林均为典型监督学习算法。K-means(D)是无监督聚类算法。

特征选择的常用

文档评论(0)

1亿VIP精品文档

相关文档