- 0
- 0
- 约8千字
- 约 11页
- 2026-01-21 发布于上海
- 举报
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是数据清洗的核心目标?
A.提升数据可视化效果
B.消除数据中的噪声、缺失值和异常值
C.直接生成预测模型
D.增加数据维度以丰富信息
答案:B
解析:数据清洗的核心是处理数据中的不完整(缺失值)、不一致(错误格式)和异常(离群值)问题,确保数据质量。选项A是数据可视化的目标,C是建模阶段的任务,D可能引入冗余信息,均不符合数据清洗的定义。
在统计学中,反映数据离散程度的指标是?
A.均值
B.中位数
C.方差
D.众数
答案:C
解析:方差(或标准差)衡量数据与其均值的偏离程度,是离散程度的核心指标。均值(A)、中位数(B)、众数(D)均反映数据集中趋势。
混淆矩阵中“真正类(TP)”指的是?
A.真实负类被预测为负类
B.真实正类被预测为正类
C.真实负类被预测为正类
D.真实正类被预测为负类
答案:B
解析:混淆矩阵中,TP(TruePositive)表示真实正类样本被正确预测为正类。A是TN(真负类),C是FP(假正类),D是FN(假负类)。
以下哪种算法属于监督学习?
A.K-means聚类
B.主成分分析(PCA)
C.线性回归
D.关联规则挖掘(Apriori)
答案:C
解析:监督学习需要标签数据,线性回归通过输入特征和目标变量(如房价)训练模型。其他选项均为无监督学习(K-means、PCA)或关联分析(Apriori)。
独热编码(One-HotEncoding)主要用于处理哪种类型的数据?
A.连续型数值
B.高基数类别特征
C.文本情感极性
D.时间序列数据
答案:B
解析:独热编码将类别特征(如“性别”:男/女)转换为二进制向量,适用于低基数类别特征(高基数可能导致维度爆炸)。连续型数值(A)通常用标准化处理,文本(C)常用词嵌入,时间序列(D)用滞后特征。
关系型数据库(RDBMS)的核心特点是?
A.支持非结构化数据存储
B.采用表结构(二维关系)组织数据
C.无固定Schema约束
D.适合实时高并发写入
答案:B
解析:关系型数据库基于关系模型,用表(行、列)存储结构化数据,有严格Schema(C错误)。非结构化数据(A)由NoSQL处理,实时高并发(D)是内存数据库特点。
Hadoop生态中,HDFS(Hadoop分布式文件系统)的主要功能是?
A.分布式计算框架
B.海量数据存储
C.资源调度管理
D.实时流处理
答案:B
解析:HDFS设计用于存储海量数据(通常GB到PB级),支持高容错。分布式计算(A)由MapReduce实现,资源调度(C)是YARN的功能,实时流处理(D)由Storm或Flink完成。
以下哪项是解决模型过拟合(Overfitting)的常用方法?
A.增加模型复杂度
B.减少训练数据量
C.引入正则化(Regularization)
D.降低特征维度
答案:C
解析:过拟合是模型对训练数据过度学习,正则化通过添加惩罚项限制模型复杂度(如L1/L2正则)。增加复杂度(A)、减少数据(B)会加剧过拟合,降低维度(D)可能丢失关键信息。
皮尔逊相关系数(PearsonCorrelation)的取值范围是?
A.[-1,1]
B.[0,1]
C.(-∞,+∞)
D.[0,+∞)
答案:A
解析:皮尔逊相关系数衡量两个变量的线性相关程度,取值范围为[-1,1],绝对值越接近1表示相关性越强,正负表示正/负相关。
主成分分析(PCA)的核心目标是?
A.保留数据的类别标签信息
B.最大化数据的方差
C.最小化预测误差
D.提升模型的可解释性
答案:B
解析:PCA通过线性变换将高维数据投影到低维空间,目标是保留最大方差(即保留最主要的信息)。保留标签(A)是LDA(线性判别分析)的目标,最小化误差(C)是回归模型目标,可解释性(D)需结合业务理解。
二、多项选择题(共10题,每题2分,共20分)
数据预处理的主要步骤包括?
A.数据清洗
B.数据集成
C.数据变换
D.数据规约
答案:ABCD
解析:数据预处理是建模前的关键步骤,包括清洗(处理缺失/异常值)、集成(多源数据合并)、变换(标准化/归一化)、规约(降维/抽样),四者均为核心步骤。
以下属于监督学习算法的有?
A.逻辑回归(LogisticRegression)
B.支持向量机(SVM)
C.随机森林(RandomForest)
D.K-means
答案:ABC
解析:监督学习需要标签数据(如分类/回归任务),逻辑回归、SVM、随机森林均为典型监督学习算法。K-means(D)是无监督聚类算法。
特征选择的常用
您可能关注的文档
- 2025年注册地质工程师考试题库(附答案和详细解析)(1230).docx
- 2025年艺术品鉴定评估师考试题库(附答案和详细解析)(1225).docx
- 2026年RPA工程师考试题库(附答案和详细解析)(0105).docx
- 2026年临床医学检验技术资格考试题库(附答案和详细解析)(0108).docx
- 2026年侍酒师考试题库(附答案和详细解析)(0108).docx
- 2026年区块链审计师考试题库(附答案和详细解析)(0104).docx
- 2026年国际风险管理师(PRM)考试题库(附答案和详细解析)(0102).docx
- CFA二级“公司金融”资本结构考点.docx
- mRNA技术在肿瘤疫苗中的研发进展.docx
- 《红楼梦》家族经济解读.docx
原创力文档

文档评论(0)