- 0
- 0
- 约4.02千字
- 约 14页
- 2026-01-11 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年中信科数据分析师考试题及答案
一、单选题(共10题,每题2分,合计20分)
1.在数据预处理阶段,以下哪项技术最适合处理缺失值较多(超过30%)的数据集?
A.插值法
B.删除缺失值
C.回归填充
D.K最近邻填充
2.某电商平台用户行为数据中,用户购买金额的分布呈现右偏态,以下哪个指标更适合描述其集中趋势?
A.均值
B.中位数
C.众数
D.标准差
3.在时间序列分析中,若某指标数据存在明显的季节性波动,应优先采用哪种模型进行预测?
A.ARIMA模型
B.线性回归模型
C.LSTM神经网络
D.朴素预测
4.某城市共享单车出行数据中,骑行时长与天气温度之间存在正相关关系,以下哪个可视化方法最直观?
A.散点图
B.柱状图
C.饼图
D.热力图
5.在数据特征工程中,将类别特征转换为数值特征最常用的方法是?
A.标准化
B.独热编码(One-HotEncoding)
C.标签编码(LabelEncoding)
D.PCA降维
6.某银行客户流失数据中,特征间的相关性较高,以下哪个模型可能过拟合?
A.逻辑回归
B.决策树
C.线性回归
D.随机森林
7.在用户分群应用中,若需根据用户消费行为进行精准营销,以下哪个聚类算法更合适?
A.K-Means
B.DBSCAN
C.层次聚类
D.谱聚类
8.某电商A/B测试中,实验组转化率为5%,对照组为4%,以下哪个指标可以评估实验效果?
A.提升率
B.Z检验值
C.P值
D.效应量
9.在数据采集过程中,若API接口返回的数据存在重复记录,以下哪个方法最适合去重?
A.使用SQLDISTINCT
B.手动筛选
C.哈希去重
D.空值填充
10.某企业需分析用户留存率,以下哪个时间段划分更合理?
A.按天划分
B.按周划分
C.按月划分
D.按季度划分
二、多选题(共5题,每题3分,合计15分)
1.以下哪些属于数据采集的常见来源?
A.电商平台交易数据
B.社交媒体评论数据
C.传感器设备数据
D.企业内部CRM系统
2.在数据清洗过程中,以下哪些属于异常值处理方法?
A.IQR方法
B.标准差法
C.删除异常值
D.替换为中位数
3.以下哪些模型适用于处理文本分类任务?
A.朴素贝叶斯
B.支持向量机(SVM)
C.卷积神经网络(CNN)
D.逻辑回归
4.在时间序列预测中,以下哪些属于季节性分解方法?
A.指数平滑法
B.STL分解
C.季节性ARIMA模型
D.移动平均法
5.以下哪些指标可以评估聚类算法的效果?
A.轮廓系数
B.确定性系数
C.调整兰德指数
D.误差平方和(SSE)
三、判断题(共10题,每题1分,合计10分)
1.数据抽样时,分层抽样比简单随机抽样更适用于类别不均衡的数据集。
(正确/错误)
2.数据标准化(Z-score)会改变数据的分布形态。
(正确/错误)
3.特征选择的目标是减少特征维度,同时保留关键信息。
(正确/错误)
4.交叉验证主要用于评估模型的泛化能力。
(正确/错误)
5.用户画像分析通常需要结合地理位置数据。
(正确/错误)
6.A/B测试中,实验组应与对照组具有相同的样本量。
(正确/错误)
7.数据去重时,唯一标识符(如用户ID)是关键依据。
(正确/错误)
8.时间序列数据中,趋势项和季节项可以相互抵消。
(正确/错误)
9.决策树模型容易过拟合,但可以通过剪枝优化。
(正确/错误)
10.数据隐私保护中,差分隐私技术可以允许数据匿名化处理。
(正确/错误)
四、简答题(共4题,每题5分,合计20分)
1.简述数据预处理的主要步骤及其作用。
2.解释什么是特征工程,并列举三种常见的特征工程方法。
3.在电商用户行为分析中,如何定义“活跃用户”?请说明指标及计算方法。
4.简述A/B测试的基本流程及其关键注意事项。
五、综合应用题(共2题,每题10分,合计20分)
1.某城市交通部门收集了2023年1-12月的地铁客流量数据(单位:万人次),数据如下:
`[120,135,150,160,175,180,185,190,195,200,205,210]`
要求:
(1)计算月均客流量及季度客流量变化趋势;
(2)若假设数据存在线性趋势,请拟合简单线性回归模型,并预测2024年1月的客流量。
2.某电商平台需要对用户购买数据进行关联规则挖掘,部分数据如下表:
|用户ID|商品A|商品B|商品C|
|--|-|-|-|
|1|是
原创力文档

文档评论(0)