- 0
- 0
- 约4.25千字
- 约 15页
- 2026-01-24 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年大数据工程师考试数据清洗与特征工程方法含答案
一、单选题(每题2分,共20题)
1.在数据清洗过程中,以下哪项不属于常见的异常值处理方法?
A.箱线图法
B.标准差法
C.简单删除法
D.主成分分析法
2.对于缺失值处理,以下哪种方法适用于缺失比例较低且数据具有高度相关性?
A.插值法
B.回归填充
C.删除法
D.均值/中位数填充
3.在特征工程中,以下哪项属于特征编码的范畴?
A.标准化
B.PCA降维
C.One-Hot编码
D.嵌入式特征选择
4.以下哪种方法不属于过拟合的缓解手段?
A.数据增强
B.正则化
C.增加模型复杂度
D.早停法
5.在处理文本数据时,以下哪种方法不属于文本向量化技术?
A.词袋模型(BOW)
B.TF-IDF
C.LDA主题模型
D.Word2Vec
6.对于稀疏矩阵处理,以下哪种技术可以有效减少维度?
A.特征选择
B.特征提取
C.嵌入式降维
D.均值中位数标准化
7.在特征交互中,以下哪种方法属于多项式特征生成?
A.交叉特征
B.嵌入式特征选择
C.特征组合
D.递归特征消除
8.在数据清洗中,以下哪种方法适用于处理重复值?
A.唯一值检测
B.空值填充
C.奇异值检测
D.数据归一化
9.对于时间序列数据,以下哪种方法不属于特征提取技术?
A.移动平均
B.时间差分
C.窗口统计
D.树模型集成
10.在特征选择中,以下哪种方法基于模型的评估?
A.互信息
B.Lasso回归
C.ANOVA
D.决策树权重
二、多选题(每题3分,共10题)
1.以下哪些属于数据清洗的步骤?
A.缺失值处理
B.异常值检测
C.数据转换
D.特征工程
2.对于类别不平衡问题,以下哪些方法可以有效缓解?
A.过采样
B.欠采样
C.SMOTE算法
D.权重调整
3.在特征编码中,以下哪些属于分类特征编码方法?
A.One-Hot编码
B.二进制编码
C.标签编码
D.标准化
4.以下哪些属于特征提取技术?
A.PCA降维
B.特征组合
C.自动编码器
D.特征选择
5.在处理缺失值时,以下哪些方法属于插值法?
A.线性插值
B.样本平均
C.K最近邻插值
D.回归填充
6.对于稀疏数据,以下哪些技术可以有效处理?
A.特征选择
B.嵌入式降维
C.LDA主题模型
D.TF-IDF
7.在特征交互中,以下哪些属于组合方法?
A.交叉特征
B.特征乘积
C.多项式特征
D.递归特征消除
8.在数据清洗中,以下哪些属于重复值处理方法?
A.唯一值检测
B.去重排序
C.空值填充
D.奇异值检测
9.对于时间序列数据,以下哪些属于特征提取方法?
A.时间窗口统计
B.移动平均
C.时间差分
D.ARIMA模型
10.在特征选择中,以下哪些方法属于无监督评估?
A.互信息
B.卡方检验
C.递归特征消除
D.L1正则化
三、判断题(每题2分,共10题)
1.数据清洗是特征工程的第一步,但并非所有特征工程都需要数据清洗。(×)
2.One-Hot编码适用于高基数的分类特征。(√)
3.标准差法可以有效检测所有类型的异常值。(×)
4.特征工程的目标是增加模型复杂度以提高性能。(×)
5.缺失值删除会导致数据丢失,但不会影响模型泛化能力。(×)
6.PCA降维属于特征提取技术,但会破坏原始数据信息。(√)
7.特征选择和特征提取是同一概念。(×)
8.时间序列数据不需要进行特征提取,可以直接用于模型训练。(×)
9.稀疏数据会导致模型训练效率降低。(√)
10.数据增强属于特征工程范畴,但不属于数据清洗。(√)
四、简答题(每题5分,共4题)
1.简述数据清洗的主要步骤及其目的。
2.解释特征编码的必要性,并列举常见的特征编码方法。
3.描述特征提取技术的应用场景及其优势。
4.分析数据不平衡问题的危害,并提出至少三种缓解方法。
五、综合应用题(每题10分,共2题)
1.假设你正在处理一份包含缺失值、异常值和重复值的电商用户行为数据集。请详细说明数据清洗的步骤,并设计至少三种特征工程方法来提升模型性能。
2.某城市交通部门提供了一份包含交通流量、天气和时间信息的时序数据集。请设计一套特征提取方案,并解释如何利用这些特征进行交通流量预测。
答案与解析
一、单选题答案
1.D.主成分分析法
解析:主成分分析法(PCA)属于降维技术,不属于异常值处理方法。
2.B.回归填充
解析:回归填充适用于缺失比例低且数据相关性高的场景。
原创力文档

文档评论(0)