- 0
- 0
- 约8.51千字
- 约 12页
- 2026-01-27 发布于江苏
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
数据科学项目的核心流程框架中,以下哪项是国际公认的标准方法论?
A.KDD(知识发现过程)
B.CRISP-DM(跨行业数据挖掘标准流程)
C.SEMMA(SAS数据挖掘流程)
D.OSEMN(数据科学流程)
答案:B
解析:CRISP-DM是跨行业数据挖掘标准流程,被广泛认可为数据科学项目的通用方法论;KDD是早期知识发现框架,覆盖范围较窄;SEMMA是SAS公司的专有流程;OSEMN是简化的流程模型(Obtain-Scrub-Explore-Model-Interpret),但非国际标准。
以下哪种数据清洗操作属于“处理异常值”的典型方法?
A.将字符串类型的日期转换为时间戳
B.对年龄字段中“-5”的值修正为合理范围
C.合并重复的用户记录
D.填充缺失的性别字段为“未知”
答案:B
解析:异常值指明显偏离正常范围的数据(如年龄为负数),修正其值属于处理异常值;A是数据格式转换,C是去重,D是填充缺失值,均不属于异常值处理。
在机器学习中,以下哪项指标用于衡量分类模型对正类样本的识别能力?
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1分数
答案:C
解析:召回率(Recall)=正确预测的正类样本数/实际正类样本总数,衡量模型对正类的覆盖能力;准确率是整体正确比例,精确率是预测正类中正确的比例,F1是精确率与召回率的调和平均。
以下哪种数据库适用于大规模非结构化数据的实时写入与查询?
A.关系型数据库(如MySQL)
B.键值存储数据库(如Redis)
C.文档型数据库(如MongoDB)
D.列式数据库(如HBase)
答案:C
解析:MongoDB是文档型数据库,支持灵活的BSON格式,适合非结构化数据(如JSON日志)的存储与查询;Redis是内存键值存储,适合缓存;HBase是列式存储,适合高并发写;MySQL是关系型,适合结构化数据。
以下哪项不属于数据可视化的核心原则?
A.减少视觉冗余
B.优先使用3D图表增强表现力
C.清晰传达核心信息
D.匹配数据类型与图表类型
答案:B
解析:3D图表可能因视角偏差误导读者,数据可视化应避免不必要的3D效果;其他选项均为核心原则(如柱状图用于分类比较,折线图用于趋势展示)。
在Python中,以下哪个库是专门用于数据清洗和分析的?
A.Matplotlib
B.Scikit-learn
C.Pandas
D.TensorFlow
答案:C
解析:Pandas是Python中用于数据清洗、处理和分析的核心库(提供DataFrame结构);Matplotlib是可视化库,Scikit-learn是机器学习库,TensorFlow是深度学习框架。
以下哪种采样方法适用于解决分类任务中的类别不平衡问题?
A.简单随机采样
B.分层采样
C.系统采样
D.欠采样(Under-sampling)
答案:D
解析:欠采样通过减少多数类样本数量平衡类别分布;分层采样是保持原类别比例的采样方法,用于保证样本代表性,不解决不平衡问题。
在统计学中,以下哪项是“中心极限定理”的核心结论?
A.样本均值的分布趋近于正态分布(无论总体分布如何)
B.总体方差等于样本方差的无偏估计
C.相关系数的绝对值越大,变量间线性关系越强
D.假设检验中p值小于显著性水平则拒绝原假设
答案:A
解析:中心极限定理指出,当样本量足够大时,样本均值的抽样分布近似正态分布,与总体分布无关;其他选项分别对应方差估计、相关系数定义、假设检验结论,均非中心极限定理内容。
以下哪种大数据技术框架主要用于批处理计算?
A.SparkStreaming
B.Flink
C.HadoopMapReduce
D.Storm
答案:C
解析:HadoopMapReduce是经典的批处理框架;SparkStreaming、Flink、Storm均为流处理框架(处理实时数据流)。
数据科学项目中,“特征重要性分析”通常在哪个阶段进行?
A.数据采集
B.模型训练
C.特征工程
D.模型评估
答案:B
解析:特征重要性分析(如随机森林的特征重要性、SHAP值)通常在模型训练后,用于评估各特征对预测结果的贡献程度,辅助特征筛选或业务解释。
二、多项选择题(共10题,每题2分,共20分)
以下哪些属于数据清洗的常见操作?()
A.处理缺失值(如删除、填充)
B.转换数据格式(如字符串转日期)
C.计算新特征(如消费总额=单价×数量)
D.识别并修正异常值
答案:ABD
解析:数据清洗关注原始数据的
您可能关注的文档
- 2025年中医养生保健师考试题库(附答案和详细解析)(1223).docx
- 2026年元旦首批入境游客抵京.docx
- 2026年宠物健康护理员考试题库(附答案和详细解析)(0107).docx
- 2026年应急救援员考试题库(附答案和详细解析)(0111).docx
- 2026年文物拍卖从业人员资格证考试题库(附答案和详细解析)(0106).docx
- 2026年智能机器人系统集成师考试题库(附答案和详细解析)(0111).docx
- 2026年残障服务协调员考试题库(附答案和详细解析)(0108).docx
- 2026年脑机接口研究员考试题库(附答案和详细解析)(0111).docx
- 2026年计算机视觉工程师考试题库(附答案和详细解析)(0109).docx
- CAPM模型中的贝塔系数稳定性检验.docx
- ChatGPT在金融投研中的prompt工程优化策略.docx
- PPT演讲的逻辑结构设计与练习技巧.docx
- 《劳动合同法》中的经济补偿金计算标准(N+1案例).docx
最近下载
- 给水排水工程顶管技术规程CECS_246:2008.pdf VIP
- 山东省济南市2024-2025学年高一上学期期末学习质量检测历史试卷(含答案).pdf VIP
- 《两位数除以一位数的口算和估算》教学设计.doc VIP
- 《民间舞基本功训练》 第五章 蒙古族舞蹈基本功训练.pptx VIP
- 2025人工智能发展白皮书-深圳市人工智能行业协会.docx
- 澜湾盛景工程项目质量管理研究.docx VIP
- JRC901B 电子海图中文操作手册.pdf VIP
- 2025年销售助理年度工作总结与计划(3).pptx VIP
- 2026年徐州生物工程职业技术学院单招职业技能考试模拟试题及答案详解.docx VIP
- 拉森钢板桩施工记录表(内含自动计算公式).xlsx VIP
原创力文档

文档评论(0)