- 0
- 0
- 约7.41千字
- 约 12页
- 2026-02-05 发布于江苏
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是处理数据集中小比例缺失值(5%)的最佳策略?
A.用特征均值填充缺失值
B.删除包含缺失值的记录
C.直接输入模型训练(忽略缺失值)
D.用相邻记录的中位数填充
答案:B
解析:当缺失值比例较小时(通常5%),直接删除缺失记录对数据集整体分布影响最小(B正确)。A选项适用于数值型特征但可能引入偏差;C选项会导致模型报错或异常;D选项适用于时间序列等有序数据,非通用场景(ACD错误)。
在机器学习中,以下哪种算法属于无监督学习?
A.逻辑回归
B.K-means聚类
C.随机森林
D.支持向量机(SVM)
答案:B
解析:无监督学习不依赖标签,K-means通过数据自身特征聚类(B正确)。逻辑回归、随机森林、SVM均需标签训练(ACD错误)。
以下哪项是数据可视化中“误导性图表”的典型特征?
A.坐标轴未从0开始
B.使用渐变色区分类别
C.添加数据标签标注具体数值
D.采用分面图展示多维度数据
答案:A
解析:坐标轴不从0开始可能夸大数据差异(如将y轴起点设为100而非0),导致视觉误导(A正确)。其余选项均为合理可视化方法(BCD错误)。
在SQL中,用于检索满足多个条件的记录的关键字是?
A.GROUPBY
B.HAVING
C.WHERE
D.ORDERBY
答案:C
解析:WHERE子句用于过滤行级数据,支持多条件逻辑运算(C正确)。GROUPBY用于分组,HAVING用于分组后过滤,ORDERBY用于排序(ABD错误)。
以下哪项是衡量分类模型“精确率”(Precision)的公式?
A.TP/(TP+FN)
B.TP/(TP+FP)
C.TN/(TN+FP)
D.(TP+TN)/(TP+TN+FP+FN)
答案:B
解析:精确率是“预测为正的样本中实际为正的比例”,公式为TP/(TP+FP)(B正确)。A是召回率,C是真负率,D是准确率(ACD错误)。
以下哪种场景最适合使用决策树模型?
A.高维稀疏文本数据分类(如垃圾邮件识别)
B.时间序列预测(如股票价格)
C.需要可解释性的医学诊断分类
D.大规模图像识别(如图像分类)
答案:C
解析:决策树的树状结构天然具备可解释性,适合医学诊断等需要透明性的场景(C正确)。高维文本常用逻辑回归或神经网络,时间序列用ARIMA或LSTM,图像识别用CNN(ABD错误)。
以下哪项不属于特征工程中的“特征构造”方法?
A.计算两个数值特征的乘积
B.将连续特征离散化为分箱(Binning)
C.对类别特征进行独热编码(One-HotEncoding)
D.从时间戳中提取“星期几”特征
答案:C
解析:特征构造是生成新特征(如乘积、分箱、时间提取),独热编码是对现有类别特征的转换(C正确)。ABD均为构造新特征(ABD错误)。
在统计假设检验中,“第一类错误”指的是?
A.原假设为真时拒绝原假设(弃真)
B.原假设为假时接受原假设(取伪)
C.备择假设为真时拒绝备择假设
D.备择假设为假时接受备择假设
答案:A
解析:第一类错误(α错误)是“原假设正确但被拒绝”(A正确)。第二类错误(β错误)是原假设错误但被接受(B错误),CD表述不符合假设检验定义(CD错误)。
以下哪种数据存储格式最适合大规模分布式计算(如Spark)?
A.CSV(逗号分隔值)
B.JSON(键值对文本)
C.Parquet(列式存储)
D.TXT(纯文本)
答案:C
解析:Parquet是列式存储格式,支持压缩和谓词下推,适合分布式计算的高效读写(C正确)。CSV、JSON、TXT为行式或非结构化格式,存储和计算效率较低(ABD错误)。
在回归分析中,R2(决定系数)的取值范围是?
A.(-∞,+∞)
B.[0,1]
C.[-1,1]
D.[0,+∞)
答案:B
解析:R2衡量模型对因变量变异的解释比例,取值范围0到1(B正确)。负值表示模型比基准(均值)更差,但实际中通常限制为[0,1](ACD错误)。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于数据清洗主要步骤的有?
A.处理缺失值
B.去除重复记录
C.标准化特征尺度(如Z-score)
D.检测并处理异常值
答案:ABD
解析:数据清洗关注数据质量问题,包括缺失值、重复值、异常值处理(ABD正确)。标准化属于特征工程,非清洗步骤(C错误)。
以下哪些算法可用于降维?
A.主成分分析(PCA)
B.线性判别分析(LDA)
C.t-分布随机邻域嵌入(t-SNE)
D.卡方检验(Chi-squareTes
您可能关注的文档
- 180多名非法移民穿越波白边境.docx
- 2025年云计算架构师考试题库(附答案和详细解析)(1218).docx
- 2025年计算机视觉工程师考试题库(附答案和详细解析)(1223).docx
- 2026中国硬核科技将再次震撼世界.docx
- 2026年婚姻家庭咨询师考试题库(附答案和详细解析)(0102).docx
- 2026年数据库系统工程师考试题库(附答案和详细解析)(0105).docx
- 2026年整理收纳师考试题库(附答案和详细解析)(0111).docx
- 2026年注册信息安全经理(CISM)考试题库(附答案和详细解析)(0106).docx
- 2026年注册照明设计师考试题库(附答案和详细解析)(0109).docx
- 2026年注册电气设备评估师考试题库(附答案和详细解析)(0109).docx
- 2026年广告优化行业数字化转型方法及营销效果分析报告.docx
- 2026年板栗加工行业市场格局与产品创新路径分析报告.docx
- 2025-2026学年河北省石家庄市长安区五年级(上)期末数学试卷(含答案).pdf
- 河北省廊坊市2025-2026学年高二上学期期末物理试卷(含答案).pdf
- 2026年广告创意行业数字化转型策略与营销效果分析报告.docx
- 2026年人工智能在零售电商领域应用分析报告.docx
- 2026年广告创意数字化创新与效果分析报告.docx
- 2026年在线医疗行业服务质量提升技术路线报告.docx
- 英语常用不规则动词表(完整版·打印版).docx
- 河北省秦皇岛市抚宁区2025-2026学年八年级上学期1月期末考试生物试卷 (含答案).pdf
最近下载
- MAS系统整体介绍.pptx VIP
- (正式版)DB50∕T 1125.1-2021 《区域性气象灾害过程评估规范 第1部分:高温 》.docx VIP
- DB1301T538-2024 极端高温、低温和强降雨事件判定规则.docx VIP
- 2025年国航客服测试题及答案.doc VIP
- (2025版)医务人员职业道德准则及政策解读PPT课件.pptx VIP
- 食材配送食材检验不合格应急处理措施.doc VIP
- 米晶子济世良方.pdf
- 精神专科医疗机构医保基金使用违法违规问题剖析与治理对策.pdf VIP
- 国航乘务员手册.pdf VIP
- 2025至2030中国管理咨询行业发展分析及投资前景与战略规划报告.docx VIP
原创力文档

文档评论(0)