2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0101）.docxVIP

下载本文档

0
0
约8.05千字
约 11页
2026-01-09 发布于上海
举报

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0101）.docx

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

数据科学的核心目标是（）

A.收集海量数据

B.从数据中提取可行动的价值

C.开发复杂的机器学习算法

D.制作精美的数据可视化图表

答案：B

解析：数据科学的核心是通过统计分析、机器学习等方法，从数据中挖掘有价值的信息并支持决策（《数据科学导论》）。A是数据获取的环节，C是工具手段，D是结果呈现方式，均非核心目标。

若某数据集的偏度（Skewness）为-2.3，说明数据分布（）

A.对称分布

B.右偏（正偏）

C.左偏（负偏）

D.尖峰分布

答案：C

解析：偏度衡量分布的不对称性，负值表示左偏（长尾在左侧），正值为右偏（《统计学基础》）。D对应峰度（Kurtosis）指标，与偏度无关。

以下属于监督学习任务的是（）

A.客户分群（聚类）

B.预测房价（回归）

C.异常检测

D.主题模型（LDA）

答案：B

解析：监督学习需要标签数据，回归（如预测房价）和分类是典型任务；无监督学习无标签（如聚类、异常检测、主题模型）（《机器学习基础》）。

混淆矩阵中，“假阳性（FalsePositive）”指（）

A.实际正类预测为正类

B.实际正类预测为负类

C.实际负类预测为正类

D.实际负类预测为负类

答案：C

解析：混淆矩阵四象限定义：TP（真阳性）=实际正/预测正；FN（假阴性）=实际正/预测负；FP（假阳性）=实际负/预测正；TN（真阴性）=实际负/预测负（《分类模型评估》）。

数据清洗中处理缺失值的常用方法不包括（）

A.删除含缺失值的整行

B.用特征均值填充

C.用KNN算法预测填充

D.直接保留缺失值用于建模

答案：D

解析：缺失值会导致模型训练错误，需处理（删除、填充、插值等）；直接保留会引入噪声（《数据预处理技术》）。

以下属于特征降维技术的是（）

A.独热编码（One-HotEncoding）

B.主成分分析（PCA）

C.标准化（Z-Score）

D.分箱（Binning）

答案：B

解析：降维技术（如PCA、LDA）用于减少特征数量；A是类别特征处理，C是尺度统一，D是离散化（《特征工程》）。

过拟合（Overfitting）的主要原因是（）

A.模型复杂度低

B.训练数据量过大

C.模型在训练集表现远好于验证集

D.正则化参数设置过大

答案：C

解析：过拟合指模型过度学习训练集噪声，导致泛化能力差（训练集准确率高，验证集低）；A是欠拟合原因，B和D会缓解过拟合（《模型评估与优化》）。

A/B测试的核心假设是（）

A.两组样本独立且同分布

B.实验周期越长越好

C.仅需关注点击率指标

D.实验组规模必须大于对照组

答案：A

解析：A/B测试要求两组样本随机分配（独立同分布），以保证结果可归因；B可能引入时间偏差，C需多指标评估，D无强制要求（《实验设计与分析》）。

关联规则分析中，“置信度（Confidence）”反映（）

A.规则的普遍程度

B.规则的可靠程度

C.规则的实际收益

D.规则的提升效果

答案：B

解析：支持度（Support）反映普遍程度，置信度（Confidence=P(B|A)）反映A出现时B出现的概率（可靠程度），提升度（Lift）反映规则的实际增益（《关联分析》）。

时间序列的基本组成部分不包括（）

A.趋势（Trend）

B.季节性（Seasonality）

C.白噪声（WhiteNoise）

D.共线性（Collinearity）

答案：D

解析：时间序列四要素：趋势、季节性、周期性、随机波动（白噪声）；共线性是回归分析中特征间的相关性问题（《时间序列分析》）。

二、多项选择题（共10题，每题2分，共20分）（每题至少2个正确选项）

数据质量的核心维度包括（）

A.准确性（Accuracy）

B.完整性（Completeness）

C.复杂性（Complexity）

D.一致性（Consistency）

答案：ABD

解析：数据质量常见维度为准确性（与真实值一致）、完整性（无缺失）、一致性（格式统一）、时效性（Timeliness）等；复杂性是数据本身的属性，非质量维度（《数据治理》）。

以下属于分类算法的有（）

A.逻辑回归（LogisticRegression）

B.K近邻（KNN）

C.线性回归（LinearRegression）

D.随机森林（RandomForest）

答案：ABD

解析：分类任务输出离散标签（如0/1），逻辑回归、KNN、随机森林均为分类算法；线性回归输出连续值，属于回归任务（《机器学习算法》）。

特征选择的常用方法包括（）

A.卡方检验（C

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（0101）.docxVIP