- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第PAGE页共NUMPAGES页
2026年数据分析师面试常见问题及答案
一、选择题(共5题,每题2分)
1.题干:在数据清洗过程中,以下哪种方法最适合处理缺失值?(单选)
A.直接删除缺失值
B.使用均值/中位数/众数填充
C.插值法
D.以上都是
答案:D
解析:缺失值处理应根据数据类型和业务场景选择方法。删除适用于缺失比例极低的情况;均值/中位数/众数适用于数值型数据;插值法适用于时间序列数据。实际操作中常结合多种方法。
2.题干:以下哪个指标最适合衡量分类模型的预测准确性?(单选)
A.AUC
B.F1分数
C.R2
D.MAE
答案:B
解析:F1分数综合了精确率和召回率,适用于类别不平衡场景。AUC衡量模型排序能力,R2和MAE用于回归模型。
3.题干:在数据仓库设计中,星型模型的中心是?(单选)
A.事实表
B.维度表
C.辅助表
D.聚集表
答案:A
解析:星型模型由一个中心事实表和多个维度表构成,事实表存储度量值,维度表存储上下文信息。
4.题干:以下哪个SQL语句用于对数据进行去重?(单选)
A.`GROUPBY`
B.`DISTINCT`
C.`HAVING`
D.`ORDERBY`
答案:B
解析:`DISTINCT`关键字直接返回唯一值,`GROUPBY`用于分组聚合,`HAVING`是分组后过滤,`ORDERBY`用于排序。
5.题干:假设某电商用户转化率是5%,通过A/B测试提升至6%,提升幅度为?(单选)
A.20%
B.120%
C.10%
D.200%
答案:A
解析:提升幅度=(新转化率-旧转化率)/旧转化率×100%=(6%-5%)/5%×100%=20%。
二、简答题(共4题,每题5分)
6.题干:简述数据分析师在业务问题中如何定义目标指标。
答案:
-明确业务场景:例如,电商用户留存率需区分新/老用户。
-量化目标:如“将次日留存率从30%提升至40%”。
-考虑约束条件:如预算限制、时间周期。
-与KPI对齐:确保指标与公司整体考核指标一致。
解析:定义指标需结合业务逻辑,避免模糊表述。例如,直接说“提升用户活跃度”不如“将日活跃用户数从5万提升至6万”。
7.题干:描述特征工程中特征筛选的常用方法。
答案:
-过滤法:如相关系数(0.8剔除冗余)、卡方检验(分类特征)。
-包装法:如递归特征消除(RFE),结合模型评分。
-嵌入法:如Lasso回归自动加权。
解析:选择方法需考虑数据量和计算成本。过滤法快速但可能遗漏交互特征,包装法准确但效率低。
8.题干:解释数据分析师如何处理数据偏差。
答案:
-抽样调整:如分层抽样平衡类别比例。
-算法层面:使用SMOTE算法生成少数类样本。
-业务干预:如调整营销资源向欠发达群体倾斜。
解析:处理偏差需结合技术手段和业务可行性。例如,医疗数据中少数类样本(如罕见病)可通过专家标注补充。
9.题干:如何评估数据可视化设计的有效性?
答案:
-目标导向:是否突出核心洞察(如销售额下降趋势)。
-可读性:坐标轴标注、颜色搭配是否规范。
-受众适配:高管更需柱状图,技术岗可接受热力图。
解析:可视化设计需避免误导性表达(如断轴),优先使用共识图表类型,如比较类用柱状图、趋势用折线图。
三、计算题(共3题,每题6分)
10.题干:某城市共享单车骑行数据如下表,计算该城市周末(周六/周日)的平均骑行时长(单位:分钟)。
|时间段|周一骑行时长|周六骑行时长|周日骑行时长|
|--|--|--|--|
|8:00-9:00|120|180|210|
|9:00-10:00|150|220|250|
|10:00-11:00|180|260|290|
答案:
-周六总时长=180+220+260=660分钟
-周日总时长=210+250+290=750分钟
-平均时长=(660+750)/3=220分钟
解析:计算时需明确“平均骑行时长”指同一时间段的加权平均,而非简单求和。
11.题干:某APP用户行为数据如下,计算留存率变化率(环比)。
|月份|新增用户|次月留存率|
|--|-||
|1月|10,000|25%|
|2月|12,000|30%|
答案:
-1月留存用户=10,000×25%=2,500人
-
原创力文档


文档评论(0)