2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0512).docxVIP

  • 5
  • 0
  • 约6.87千字
  • 约 7页
  • 2026-06-10 发布于上海
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0512).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

1.在数据清洗过程中,如果数据集中存在大量的缺失值,且缺失机制属于随机缺失,最常用的处理方法不包括以下哪项?A.删除含有缺失值的记录B.使用均值或中位数进行填充C.使用K近邻算法进行预测填充D.使用随机森林算法进行预测填充答案:D解析:随机缺失情况下,均值/中位数填充(A/B)是简单有效的策略;K近邻(C)利用样本相似性进行填充,也是常用方法。随机森林(D)虽然也能处理缺失值,但在作为基础填充策略时不如均值简单,且容易过拟合,通常不作为首选的基础填充方法。

2.下列关于朴素贝叶斯分类器的描述中,正确的是?A.它是基于决策树算法的分类器B.它假设特征之间是相互独立的C.它在处理连续特征时效果优于逻辑回归D.它需要大量的人工特征工程答案:B解析:朴素贝叶斯的核心假设是特征条件独立(B);它基于贝叶斯定理和特征独立假设;对于连续特征,通常需先进行离散化处理(A错误);相比于逻辑回归,它对特征工程的要求较低(D错误);在处理连续特征时,它需要假设特征符合正态分布,否则效果未必优于逻辑回归(C错误)。

3.在Python数据分析库Pandas中,用于将一个DataFrame按指定列分组并进行聚合操作的方法是?A.apply()B.transform(

文档评论(0)

1亿VIP精品文档

相关文档