2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1016).docxVIP

  • 2
  • 0
  • 约7.92千字
  • 约 11页
  • 2025-10-23 发布于上海
  • 举报

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1016).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

数据清洗的核心目的是()

A.提升模型训练速度

B.提高数据质量(完整性、准确性、一致性)

C.减少数据存储量

D.增强数据可视化效果

答案:B

解析:数据清洗的主要任务是处理缺失值、异常值、重复值等问题,核心目标是确保数据的完整性、准确性和一致性(即数据质量)。A是特征工程或模型优化的间接效果;C是数据压缩的目的;D是数据可视化的目标,均非数据清洗核心。

以下哪种统计量用于衡量数据分布的离散程度?()

A.均值

B.中位数

C.标准差

D.分位数

答案:C

解析:标准差(或方差)是衡量数据离散程度的指标;均值(A)和中位数(B)衡量集中趋势;分位数(D)描述数据分布的位置,均不直接反映离散程度。

逻辑回归模型的输出是()

A.连续数值

B.类别标签(0/1)

C.概率值(0-1之间)

D.特征重要性得分

答案:C

解析:逻辑回归通过sigmoid函数将线性回归结果映射到[0,1]区间,输出为概率值;最终分类标签(B)需通过设定阈值(如0.5)转换得到;A是线性回归的输出;D是特征重要性分析的结果。

以下不属于数据可视化工具的是()

A.Tableau

B.Python的Matplotlib

C.SQLServer

D.R的ggplot2

答案:C

解析:SQLServer是关系型数据库管理系统,用于数据存储和查询;A、B、D均为专业可视化工具或库。

以下哪种数据库适合存储半结构化数据?()

A.关系型数据库(如MySQL)

B.键值数据库(如Redis)

C.文档型数据库(如MongoDB)

D.列式数据库(如HBase)

答案:C

解析:文档型数据库(如MongoDB)支持JSON格式文档,适合半结构化数据;关系型数据库(A)要求严格表结构;键值数据库(B)适合简单键值对;列式数据库(D)适合海量结构化数据高效查询。

大数据技术框架Hadoop的核心组件不包括()

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算)

C.Hive(数据仓库工具)

D.Spark(内存计算框架)

答案:D

解析:Hadoop核心是HDFS和MapReduce,Hive是基于Hadoop的数据仓库工具;Spark是独立于Hadoop的内存计算框架,不属于Hadoop原生组件。

特征工程中“独热编码(One-HotEncoding)”主要用于处理()

A.连续型特征

B.高基数类别特征

C.缺失值

D.低基数类别特征

答案:D

解析:独热编码通过二进制向量表示类别特征,适用于低基数(类别数少)的类别特征;高基数类别特征(B)使用独热编码会导致维度爆炸,通常采用目标编码或嵌入等方法;A需标准化/归一化;C需填充或删除。

以下属于降维技术的是()

A.主成分分析(PCA)

B.随机森林(RandomForest)

C.K近邻(KNN)

D.支持向量机(SVM)

答案:A

解析:PCA通过线性变换将高维数据投影到低维空间,属于降维技术;B、C、D均为机器学习模型,用于分类或回归。

贝叶斯定理的核心思想是()

A.用先验概率更新后验概率

B.最小化预测误差

C.最大化似然函数

D.寻找数据的聚类中心

答案:A

解析:贝叶斯定理公式为P(A|B)=P(B|A)P(A)/P(B),核心是利用新观测(B)更新先验概率P(A)得到后验概率P(A|B);B是回归模型目标;C是频率学派参数估计方法;D是聚类算法目标。

以下哪项不属于数据隐私保护技术?()

A.差分隐私(DifferentialPrivacy)

B.数据脱敏(DataMasking)

C.特征选择(FeatureSelection)

D.同态加密(HomomorphicEncryption)

答案:C

解析:特征选择是从原始特征中筛选重要特征,与隐私保护无关;A、B、D均为典型隐私保护技术(差分隐私通过添加噪声保护个体信息,脱敏隐藏敏感字段,同态加密支持加密数据计算)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

数据清洗中处理缺失值的常用方法包括()

A.删除含缺失值的行/列

B.用均值/中位数填充

C.用KNN算法预测填充

D.直接保留缺失值

答案:ABC

解析:缺失值处理方法包括删除(A)、统计值填充(B)、模型预测填充(C);D会导致后续分析错误(如模型无法处理缺失值),不属于合理方法。

以下属于监督学习任务的是()

A.垃圾邮件分类

B.用户分群(聚类)

C.房价预测(回归)

D.图像分割(无标签)

答案:AC

解析:监督学习需

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档