数据分析师笔试题及逻辑思维题含答案.docxVIP

  • 0
  • 0
  • 约3.02千字
  • 约 9页
  • 2026-02-18 发布于福建
  • 举报

数据分析师笔试题及逻辑思维题含答案.docx

第PAGE页共NUMPAGES页

2026年数据分析师笔试题及逻辑思维题含答案

一、数据分析师笔试题(共10题,满分100分)

1.(10分)选择题:以下关于数据挖掘技术的描述,哪项是正确的?

A.决策树算法是一种非参数的监督学习模型

B.聚类分析主要用于处理无标签数据,发现数据中的自然分组

C.逻辑回归适用于多分类问题,而非二分类问题

D.神经网络主要用于无监督学习,而非深度学习任务

答案:B

解析:

A项错误,决策树算法属于参数模型,通过递归划分数据集;

B项正确,聚类分析(如K-means)的核心是发现数据中的隐含模式,适用于无标签数据;

C项错误,逻辑回归本质是二分类模型,通过Sigmoid函数输出概率,扩展到多分类需使用Softmax;

D项错误,神经网络是监督学习的典型代表,深度学习是神经网络的一种复杂形式。

2.(15分)简答题:某电商平台需分析用户购买行为数据,现有数据集包含用户ID、购买金额、购买时间、商品类别、用户年龄、性别等字段。请设计一个数据预处理方案,并说明每一步的必要性。

答案:

方案:

1.缺失值处理(必要性:缺失值可能影响模型稳定性,需填充或删除);

-用户ID:删除异常或空值;

-购买金额/时间:用均值/中位数填充;

-商品类别:用众数填充或删除。

2.异常值检测(必要性:异常值可能扭曲分析结果);

-用3σ原则或箱线图识别并处理购买金额、年龄的异常值。

3.特征工程(必要性:衍生特征能提升模型表现);

-构造“购买时段”(如早/中/晚);

-计算用户购买频率(每日/周/月)。

4.数据标准化(必要性:不同量纲影响模型收敛速度);

-对年龄、金额等数值特征用Z-score标准化。

3.(15分)计算题:给定一个电商用户行为数据集,统计结果如下:

-总用户数:10,000;

-男性用户占比:60%;

-购买过商品的用户占比:30%;

-男性用户中购买商品的比例:40%。

求女性用户中购买商品的比例(保留2位小数)。

答案:

设女性用户占比为40%,则:

男性用户购买商品人数=10,000×60%×40%=2,400;

女性用户购买商品人数=10,000×40%×x;

总购买商品人数=10,000×30%=3,000;

2,400+4,000x=3,000→x=0.25;

女性用户购买比例:25.00%。

4.(10分)选择题:以下哪种SQL语句最适合进行数据去重?

A.`SELECTDISTINCTFROMtable;`

B.`SELECTCOUNT(DISTINCTcolumn)FROMtable;`

C.`DELETEFROMtableWHEREidIN(SELECTDISTINCTidFROMtable);`

D.`SELECTcolumn1,COUNT()FROMtableGROUPBYcolumn1;`

答案:A

解析:

A项正确,`DISTINCT`直接返回唯一值;

B项统计唯一值数量;

C项是删除重复记录的写法;

D项用于计数分组数量。

5.(20分)分析题:某公司A/B测试了两种营销文案,实验组(文案B)点击率8%,对照组(文案A)6%,样本量各5,000。请判断文案B是否显著更优(α=0.05)。

答案:

步骤:

1.假设检验:

-H0:pB=pA;

-H1:pBpA;

2.计算合并点击率:

-总点击数=5,000×8%+5,000×6%=700;

-合并p?=700/10,000=7%;

3.标准化统计量:

-SE=√[p?(1-p?)/n]=√[0.07×0.93/5,000]≈0.0034;

-Z=(0.08-0.06)/0.0034≈5.88;

4.查Z表:α=0.05时临界值为1.645,5.88远超临界值。

结论:文案B显著更优(p0.001)。

6.(10分)填空题:在数据可视化中,使用折线图最适合展示______,而条形图适合比较______。

答案:时间序列变化;多个类别的数值差异

7.(10分)选择题:以下哪个指标最能反映模型预测的稳定性?

A.AUC

B.方差

C.MAE

D.RMSE

答案:B

解析:

方差衡量模型对数据扰动的敏感度,高方差易过拟合;

AUC衡量分类性能;

MAE/RMSE是回归误差指标。

8.(10分)简答题:解释“数据偏差”的两种主要类型及其解决方法。

答案:

1.采样偏差(数据未代表总体):

-解决:分层抽样、增加样本量;

2.系统性偏差(模型假设与实际不符):

-解决:

文档评论(0)

1亿VIP精品文档

相关文档