2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0101).docxVIP

  • 0
  • 0
  • 约8.05千字
  • 约 11页
  • 2026-01-09 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0101).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

数据科学的核心目标是()

A.收集海量数据

B.从数据中提取可行动的价值

C.开发复杂的机器学习算法

D.制作精美的数据可视化图表

答案:B

解析:数据科学的核心是通过统计分析、机器学习等方法,从数据中挖掘有价值的信息并支持决策(《数据科学导论》)。A是数据获取的环节,C是工具手段,D是结果呈现方式,均非核心目标。

若某数据集的偏度(Skewness)为-2.3,说明数据分布()

A.对称分布

B.右偏(正偏)

C.左偏(负偏)

D.尖峰分布

答案:C

解析:偏度衡量分布的不对称性,负值表示左偏(长尾在左侧),正值为右偏(《统计学基础》)。D对应峰度(Kurtosis)指标,与偏度无关。

以下属于监督学习任务的是()

A.客户分群(聚类)

B.预测房价(回归)

C.异常检测

D.主题模型(LDA)

答案:B

解析:监督学习需要标签数据,回归(如预测房价)和分类是典型任务;无监督学习无标签(如聚类、异常检测、主题模型)(《机器学习基础》)。

混淆矩阵中,“假阳性(FalsePositive)”指()

A.实际正类预测为正类

B.实际正类预测为负类

C.实际负类预测为正类

D.实际负类预测为负类

答案:C

解析:混淆矩阵四象限定义:TP(真阳性)=实际正/预测正;FN(假阴性)=实际正/预测负;FP(假阳性)=实际负/预测正;TN(真阴性)=实际负/预测负(《分类模型评估》)。

数据清洗中处理缺失值的常用方法不包括()

A.删除含缺失值的整行

B.用特征均值填充

C.用KNN算法预测填充

D.直接保留缺失值用于建模

答案:D

解析:缺失值会导致模型训练错误,需处理(删除、填充、插值等);直接保留会引入噪声(《数据预处理技术》)。

以下属于特征降维技术的是()

A.独热编码(One-HotEncoding)

B.主成分分析(PCA)

C.标准化(Z-Score)

D.分箱(Binning)

答案:B

解析:降维技术(如PCA、LDA)用于减少特征数量;A是类别特征处理,C是尺度统一,D是离散化(《特征工程》)。

过拟合(Overfitting)的主要原因是()

A.模型复杂度低

B.训练数据量过大

C.模型在训练集表现远好于验证集

D.正则化参数设置过大

答案:C

解析:过拟合指模型过度学习训练集噪声,导致泛化能力差(训练集准确率高,验证集低);A是欠拟合原因,B和D会缓解过拟合(《模型评估与优化》)。

A/B测试的核心假设是()

A.两组样本独立且同分布

B.实验周期越长越好

C.仅需关注点击率指标

D.实验组规模必须大于对照组

答案:A

解析:A/B测试要求两组样本随机分配(独立同分布),以保证结果可归因;B可能引入时间偏差,C需多指标评估,D无强制要求(《实验设计与分析》)。

关联规则分析中,“置信度(Confidence)”反映()

A.规则的普遍程度

B.规则的可靠程度

C.规则的实际收益

D.规则的提升效果

答案:B

解析:支持度(Support)反映普遍程度,置信度(Confidence=P(B|A))反映A出现时B出现的概率(可靠程度),提升度(Lift)反映规则的实际增益(《关联分析》)。

时间序列的基本组成部分不包括()

A.趋势(Trend)

B.季节性(Seasonality)

C.白噪声(WhiteNoise)

D.共线性(Collinearity)

答案:D

解析:时间序列四要素:趋势、季节性、周期性、随机波动(白噪声);共线性是回归分析中特征间的相关性问题(《时间序列分析》)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

数据质量的核心维度包括()

A.准确性(Accuracy)

B.完整性(Completeness)

C.复杂性(Complexity)

D.一致性(Consistency)

答案:ABD

解析:数据质量常见维度为准确性(与真实值一致)、完整性(无缺失)、一致性(格式统一)、时效性(Timeliness)等;复杂性是数据本身的属性,非质量维度(《数据治理》)。

以下属于分类算法的有()

A.逻辑回归(LogisticRegression)

B.K近邻(KNN)

C.线性回归(LinearRegression)

D.随机森林(RandomForest)

答案:ABD

解析:分类任务输出离散标签(如0/1),逻辑回归、KNN、随机森林均为分类算法;线性回归输出连续值,属于回归任务(《机器学习算法》)。

特征选择的常用方法包括()

A.卡方检验(C

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档