2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0110).docxVIP

  • 0
  • 0
  • 约8.51千字
  • 约 12页
  • 2026-01-27 发布于江苏
  • 举报

2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0110).docx

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

数据科学项目的核心流程框架中,以下哪项是国际公认的标准方法论?

A.KDD(知识发现过程)

B.CRISP-DM(跨行业数据挖掘标准流程)

C.SEMMA(SAS数据挖掘流程)

D.OSEMN(数据科学流程)

答案:B

解析:CRISP-DM是跨行业数据挖掘标准流程,被广泛认可为数据科学项目的通用方法论;KDD是早期知识发现框架,覆盖范围较窄;SEMMA是SAS公司的专有流程;OSEMN是简化的流程模型(Obtain-Scrub-Explore-Model-Interpret),但非国际标准。

以下哪种数据清洗操作属于“处理异常值”的典型方法?

A.将字符串类型的日期转换为时间戳

B.对年龄字段中“-5”的值修正为合理范围

C.合并重复的用户记录

D.填充缺失的性别字段为“未知”

答案:B

解析:异常值指明显偏离正常范围的数据(如年龄为负数),修正其值属于处理异常值;A是数据格式转换,C是去重,D是填充缺失值,均不属于异常值处理。

在机器学习中,以下哪项指标用于衡量分类模型对正类样本的识别能力?

A.准确率(Accuracy)

B.精确率(Precision)

C.召回率(Recall)

D.F1分数

答案:C

解析:召回率(Recall)=正确预测的正类样本数/实际正类样本总数,衡量模型对正类的覆盖能力;准确率是整体正确比例,精确率是预测正类中正确的比例,F1是精确率与召回率的调和平均。

以下哪种数据库适用于大规模非结构化数据的实时写入与查询?

A.关系型数据库(如MySQL)

B.键值存储数据库(如Redis)

C.文档型数据库(如MongoDB)

D.列式数据库(如HBase)

答案:C

解析:MongoDB是文档型数据库,支持灵活的BSON格式,适合非结构化数据(如JSON日志)的存储与查询;Redis是内存键值存储,适合缓存;HBase是列式存储,适合高并发写;MySQL是关系型,适合结构化数据。

以下哪项不属于数据可视化的核心原则?

A.减少视觉冗余

B.优先使用3D图表增强表现力

C.清晰传达核心信息

D.匹配数据类型与图表类型

答案:B

解析:3D图表可能因视角偏差误导读者,数据可视化应避免不必要的3D效果;其他选项均为核心原则(如柱状图用于分类比较,折线图用于趋势展示)。

在Python中,以下哪个库是专门用于数据清洗和分析的?

A.Matplotlib

B.Scikit-learn

C.Pandas

D.TensorFlow

答案:C

解析:Pandas是Python中用于数据清洗、处理和分析的核心库(提供DataFrame结构);Matplotlib是可视化库,Scikit-learn是机器学习库,TensorFlow是深度学习框架。

以下哪种采样方法适用于解决分类任务中的类别不平衡问题?

A.简单随机采样

B.分层采样

C.系统采样

D.欠采样(Under-sampling)

答案:D

解析:欠采样通过减少多数类样本数量平衡类别分布;分层采样是保持原类别比例的采样方法,用于保证样本代表性,不解决不平衡问题。

在统计学中,以下哪项是“中心极限定理”的核心结论?

A.样本均值的分布趋近于正态分布(无论总体分布如何)

B.总体方差等于样本方差的无偏估计

C.相关系数的绝对值越大,变量间线性关系越强

D.假设检验中p值小于显著性水平则拒绝原假设

答案:A

解析:中心极限定理指出,当样本量足够大时,样本均值的抽样分布近似正态分布,与总体分布无关;其他选项分别对应方差估计、相关系数定义、假设检验结论,均非中心极限定理内容。

以下哪种大数据技术框架主要用于批处理计算?

A.SparkStreaming

B.Flink

C.HadoopMapReduce

D.Storm

答案:C

解析:HadoopMapReduce是经典的批处理框架;SparkStreaming、Flink、Storm均为流处理框架(处理实时数据流)。

数据科学项目中,“特征重要性分析”通常在哪个阶段进行?

A.数据采集

B.模型训练

C.特征工程

D.模型评估

答案:B

解析:特征重要性分析(如随机森林的特征重要性、SHAP值)通常在模型训练后,用于评估各特征对预测结果的贡献程度,辅助特征筛选或业务解释。

二、多项选择题(共10题,每题2分,共20分)

以下哪些属于数据清洗的常见操作?()

A.处理缺失值(如删除、填充)

B.转换数据格式(如字符串转日期)

C.计算新特征(如消费总额=单价×数量)

D.识别并修正异常值

答案:ABD

解析:数据清洗关注原始数据的

文档评论(0)

1亿VIP精品文档

相关文档