- 0
- 0
- 约8.05千字
- 约 11页
- 2026-01-09 发布于上海
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
数据科学的核心目标是()
A.收集海量数据
B.从数据中提取可行动的价值
C.开发复杂的机器学习算法
D.制作精美的数据可视化图表
答案:B
解析:数据科学的核心是通过统计分析、机器学习等方法,从数据中挖掘有价值的信息并支持决策(《数据科学导论》)。A是数据获取的环节,C是工具手段,D是结果呈现方式,均非核心目标。
若某数据集的偏度(Skewness)为-2.3,说明数据分布()
A.对称分布
B.右偏(正偏)
C.左偏(负偏)
D.尖峰分布
答案:C
解析:偏度衡量分布的不对称性,负值表示左偏(长尾在左侧),正值为右偏(《统计学基础》)。D对应峰度(Kurtosis)指标,与偏度无关。
以下属于监督学习任务的是()
A.客户分群(聚类)
B.预测房价(回归)
C.异常检测
D.主题模型(LDA)
答案:B
解析:监督学习需要标签数据,回归(如预测房价)和分类是典型任务;无监督学习无标签(如聚类、异常检测、主题模型)(《机器学习基础》)。
混淆矩阵中,“假阳性(FalsePositive)”指()
A.实际正类预测为正类
B.实际正类预测为负类
C.实际负类预测为正类
D.实际负类预测为负类
答案:C
解析:混淆矩阵四象限定义:TP(真阳性)=实际正/预测正;FN(假阴性)=实际正/预测负;FP(假阳性)=实际负/预测正;TN(真阴性)=实际负/预测负(《分类模型评估》)。
数据清洗中处理缺失值的常用方法不包括()
A.删除含缺失值的整行
B.用特征均值填充
C.用KNN算法预测填充
D.直接保留缺失值用于建模
答案:D
解析:缺失值会导致模型训练错误,需处理(删除、填充、插值等);直接保留会引入噪声(《数据预处理技术》)。
以下属于特征降维技术的是()
A.独热编码(One-HotEncoding)
B.主成分分析(PCA)
C.标准化(Z-Score)
D.分箱(Binning)
答案:B
解析:降维技术(如PCA、LDA)用于减少特征数量;A是类别特征处理,C是尺度统一,D是离散化(《特征工程》)。
过拟合(Overfitting)的主要原因是()
A.模型复杂度低
B.训练数据量过大
C.模型在训练集表现远好于验证集
D.正则化参数设置过大
答案:C
解析:过拟合指模型过度学习训练集噪声,导致泛化能力差(训练集准确率高,验证集低);A是欠拟合原因,B和D会缓解过拟合(《模型评估与优化》)。
A/B测试的核心假设是()
A.两组样本独立且同分布
B.实验周期越长越好
C.仅需关注点击率指标
D.实验组规模必须大于对照组
答案:A
解析:A/B测试要求两组样本随机分配(独立同分布),以保证结果可归因;B可能引入时间偏差,C需多指标评估,D无强制要求(《实验设计与分析》)。
关联规则分析中,“置信度(Confidence)”反映()
A.规则的普遍程度
B.规则的可靠程度
C.规则的实际收益
D.规则的提升效果
答案:B
解析:支持度(Support)反映普遍程度,置信度(Confidence=P(B|A))反映A出现时B出现的概率(可靠程度),提升度(Lift)反映规则的实际增益(《关联分析》)。
时间序列的基本组成部分不包括()
A.趋势(Trend)
B.季节性(Seasonality)
C.白噪声(WhiteNoise)
D.共线性(Collinearity)
答案:D
解析:时间序列四要素:趋势、季节性、周期性、随机波动(白噪声);共线性是回归分析中特征间的相关性问题(《时间序列分析》)。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
数据质量的核心维度包括()
A.准确性(Accuracy)
B.完整性(Completeness)
C.复杂性(Complexity)
D.一致性(Consistency)
答案:ABD
解析:数据质量常见维度为准确性(与真实值一致)、完整性(无缺失)、一致性(格式统一)、时效性(Timeliness)等;复杂性是数据本身的属性,非质量维度(《数据治理》)。
以下属于分类算法的有()
A.逻辑回归(LogisticRegression)
B.K近邻(KNN)
C.线性回归(LinearRegression)
D.随机森林(RandomForest)
答案:ABD
解析:分类任务输出离散标签(如0/1),逻辑回归、KNN、随机森林均为分类算法;线性回归输出连续值,属于回归任务(《机器学习算法》)。
特征选择的常用方法包括()
A.卡方检验(C
您可能关注的文档
- 2025年强化学习工程师考试题库(附答案和详细解析)(1227).docx
- 2025年注册电气工程师考试题库(附答案和详细解析)(1231).docx
- 2025年自然语言处理工程师考试题库(附答案和详细解析)(1211).docx
- 2025年自然语言处理工程师考试题库(附答案和详细解析)(1228).docx
- 2026年大数据工程师职业资格考试题库(附答案和详细解析)(0101).docx
- 2026年运动营养师考试题库(附答案和详细解析)(0101).docx
- 5的来源解析(工业vs机动车).docx
- REITs的现金流拆分与估值逻辑.docx
- 《傲慢与偏见》中伊丽莎白的婚姻观演变.docx
- 一体铸造是画饼还是大趋势?大家吵得不可开交.docx
最近下载
- DB3620-2020 杨树立木材积表-安徽.pdf VIP
- 红楼梦87版字幕(李纯博书法).pdf VIP
- 2025年度 民主生活会班子对照检查发言材料(五个带头)_八篇.docx VIP
- 论文(基于spring boot框架的网上订餐系统的设计与实现)_kaic.docx VIP
- 携程定制师上岗证考试——VBK系统操作.docx VIP
- 人民陪审员实务:行政案件参审实务.pptx VIP
- 占道施工方案范本标准.docx VIP
- PVC管道安装流程及注意事项.doc VIP
- 内蒙古自治区2025年普通高等学校对口招生考试医卫类试卷.pdf
- FPGA设计技巧与案例开发详解-目录.pdf VIP
原创力文档

文档评论(0)