2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1016）.docxVIP

下载本文档

2
0
约7.92千字
约 11页
2025-10-23 发布于上海
举报

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1016）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

数据清洗的核心目的是（）

A.提升模型训练速度

B.提高数据质量（完整性、准确性、一致性）

C.减少数据存储量

D.增强数据可视化效果

答案：B

解析：数据清洗的主要任务是处理缺失值、异常值、重复值等问题，核心目标是确保数据的完整性、准确性和一致性（即数据质量）。A是特征工程或模型优化的间接效果；C是数据压缩的目的；D是数据可视化的目标，均非数据清洗核心。

以下哪种统计量用于衡量数据分布的离散程度？（）

A.均值

B.中位数

C.标准差

D.分位数

答案：C

解析：标准差（或方差）是衡量数据离散程度的指标；均值（A）和中位数（B）衡量集中趋势；分位数（D）描述数据分布的位置，均不直接反映离散程度。

逻辑回归模型的输出是（）

A.连续数值

B.类别标签（0/1）

C.概率值（0-1之间）

D.特征重要性得分

答案：C

解析：逻辑回归通过sigmoid函数将线性回归结果映射到[0,1]区间，输出为概率值；最终分类标签（B）需通过设定阈值（如0.5）转换得到；A是线性回归的输出；D是特征重要性分析的结果。

以下不属于数据可视化工具的是（）

A.Tableau

B.Python的Matplotlib

C.SQLServer

D.R的ggplot2

答案：C

解析：SQLServer是关系型数据库管理系统，用于数据存储和查询；A、B、D均为专业可视化工具或库。

以下哪种数据库适合存储半结构化数据？（）

A.关系型数据库（如MySQL）

B.键值数据库（如Redis）

C.文档型数据库（如MongoDB）

D.列式数据库（如HBase）

答案：C

解析：文档型数据库（如MongoDB）支持JSON格式文档，适合半结构化数据；关系型数据库（A）要求严格表结构；键值数据库（B）适合简单键值对；列式数据库（D）适合海量结构化数据高效查询。

大数据技术框架Hadoop的核心组件不包括（）

A.HDFS（分布式文件系统）

B.MapReduce（分布式计算）

C.Hive（数据仓库工具）

D.Spark（内存计算框架）

答案：D

解析：Hadoop核心是HDFS和MapReduce，Hive是基于Hadoop的数据仓库工具；Spark是独立于Hadoop的内存计算框架，不属于Hadoop原生组件。

特征工程中“独热编码（One-HotEncoding）”主要用于处理（）

A.连续型特征

B.高基数类别特征

C.缺失值

D.低基数类别特征

答案：D

解析：独热编码通过二进制向量表示类别特征，适用于低基数（类别数少）的类别特征；高基数类别特征（B）使用独热编码会导致维度爆炸，通常采用目标编码或嵌入等方法；A需标准化/归一化；C需填充或删除。

以下属于降维技术的是（）

A.主成分分析（PCA）

B.随机森林（RandomForest）

C.K近邻（KNN）

D.支持向量机（SVM）

答案：A

解析：PCA通过线性变换将高维数据投影到低维空间，属于降维技术；B、C、D均为机器学习模型，用于分类或回归。

贝叶斯定理的核心思想是（）

A.用先验概率更新后验概率

B.最小化预测误差

C.最大化似然函数

D.寻找数据的聚类中心

答案：A

解析：贝叶斯定理公式为P(A|B)=P(B|A)P(A)/P(B)，核心是利用新观测（B）更新先验概率P(A)得到后验概率P(A|B)；B是回归模型目标；C是频率学派参数估计方法；D是聚类算法目标。

以下哪项不属于数据隐私保护技术？（）

A.差分隐私（DifferentialPrivacy）

B.数据脱敏（DataMasking）

C.特征选择（FeatureSelection）

D.同态加密（HomomorphicEncryption）

答案：C

解析：特征选择是从原始特征中筛选重要特征，与隐私保护无关；A、B、D均为典型隐私保护技术（差分隐私通过添加噪声保护个体信息，脱敏隐藏敏感字段，同态加密支持加密数据计算）。

二、多项选择题（共10题，每题2分，共20分）（每题至少2个正确选项）

数据清洗中处理缺失值的常用方法包括（）

A.删除含缺失值的行/列

B.用均值/中位数填充

C.用KNN算法预测填充

D.直接保留缺失值

答案：ABC

解析：缺失值处理方法包括删除（A）、统计值填充（B）、模型预测填充（C）；D会导致后续分析错误（如模型无法处理缺失值），不属于合理方法。

以下属于监督学习任务的是（）

A.垃圾邮件分类

B.用户分群（聚类）

C.房价预测（回归）

D.图像分割（无标签）

答案：AC

解析：监督学习需

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1016）.docxVIP