- 0
- 0
- 约3.01千字
- 约 10页
- 2026-01-25 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年中级数据分析师面试题及答案
一、选择题(共5题,每题2分)
1.在处理缺失值时,以下哪种方法在数据量较大且缺失比例不高的情况下通常效果最好?
A.删除含有缺失值的行
B.使用均值/中位数/众数填充
C.使用KNN算法填充
D.插值法
答案:B
解析:在数据量较大且缺失比例不高时,均值/中位数/众数填充能较好地保留数据分布特征,且计算效率高。删除行会导致数据丢失,KNN填充计算复杂,插值法适用于时间序列等特定场景。
2.以下哪个指标最适合衡量分类模型的预测准确性?
A.AUC
B.F1分数
C.R2
D.MAE
答案:B
解析:F1分数综合考虑精确率和召回率,适用于类别不平衡场景;AUC衡量模型区分能力;R2用于回归模型;MAE为回归评价指标。
3.在数据清洗中,“异常值”通常指什么?
A.空值
B.与大多数数据差异显著的数据点
C.重复值
D.缺失值
答案:B
解析:异常值指偏离大多数数据分布的数据点,可能由测量误差或真实极端情况导致。空值、重复值、缺失值属于数据质量问题,但非异常值。
4.以下哪种算法属于非监督学习?
A.决策树分类
B.线性回归
C.聚类算法
D.逻辑回归
答案:C
解析:聚类算法(如K-Means)无需标签数据进行训练,属于非监督学习;决策树、线性回归、逻辑回归均为监督学习。
5.在进行数据可视化时,以下哪种图表最适合展示部分与整体的关系?
A.散点图
B.热力图
C.饼图
D.柱状图
答案:C
解析:饼图直观展示各部分占比,适用于分类数据的整体分布;散点图用于关系分析,热力图展示矩阵数据,柱状图对比分类数据。
二、填空题(共5题,每题2分)
6.在SQL中,用于筛选数据的语句是______。
答案:SELECT-WHERE
7.交叉表(Crosstab)在数据分析中主要用于______。
答案:多维数据汇总
8.机器学习中的“过拟合”现象是指模型在______上表现好,但在新数据上表现差。
答案:训练集
9.时间序列分析中,ARIMA模型的三个主要参数是p、d、______。
答案:q
10.在Excel中,使用______函数可以计算数据的中位数。
答案:MEDIAN
三、简答题(共5题,每题4分)
11.简述数据探索性分析(EDA)的主要步骤。
答案:
1.数据概览:检查数据规模、字段类型、缺失值分布。
2.统计描述:计算均值、方差、分位数等,初步了解数据分布。
3.可视化分析:通过图表(如直方图、箱线图)观察数据模式、异常值。
4.相关性分析:计算特征间相关系数,识别潜在关系。
5.假设检验:验证数据分布是否符合预期(如正态分布)。
12.解释什么是“数据标签化”,及其在数据分析中的应用。
答案:
数据标签化指将原始数据(如文本、图像)转化为机器学习可识别的数值或类别。应用场景:
-文本分析中,将词袋模型转化为TF-IDF向量;
-图像处理中,将像素值归一化;
-类别数据用One-Hot或LabelEncoding编码。
13.什么是“特征工程”,请举例说明其重要性。
答案:
特征工程指通过转换、组合原始特征,创造新特征以提升模型性能。重要性:
-案例:将用户注册时间拆分为“小时”“星期几”,提高时序模型精度;
-通过特征筛选(如方差分析)去除冗余信息,避免过拟合。
14.描述在处理分类数据时,如何评估模型的泛化能力?
答案:
1.交叉验证:使用K折交叉验证计算平均性能;
2.混淆矩阵:分析精确率、召回率、F1分数;
3.ROC/AUC:评估模型在不同阈值下的区分能力;
4.外部测试集:用未参与训练的数据验证表现。
15.什么是“数据偏差”,如何检测和缓解?
答案:
数据偏差指样本未能代表总体,可能导致模型决策偏见。检测方法:
-统计分析(如性别/年龄分布是否均衡);
-模型解释性工具(如SHAP值);
-缓解方法:重采样、数据增强、引入偏差校正算法。
四、计算题(共3题,每题6分)
16.假设有以下用户购买数据:
|用户ID|产品A购买|产品B购买|
|--|-|-|
|1|是|否|
|2|否|是|
|3|是|是|
|4|否|否|
计算产品A与产品B的联合概率和条件概率(P(A|B))。
答案:
-联合概率P(A∩B)=2/4=0.5(用户3购买两产品);
-条件概率P(A|B)=P(A∩B)/P(B)=0.5
原创力文档

文档评论(0)