2025年数据人员面试题库及答案.docxVIP

下载本文档

0
0
约6.81千字
约 13页
2025-12-02 发布于四川
举报
版权申诉

2025年数据人员面试题库及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年数据人员面试题库及答案

1.数据分析师岗位常见问题

Q：请描述数据清洗的核心步骤及各步骤的关键操作。

A：数据清洗通常分为五步：第一步识别异常值，通过箱线图、Z-score或业务规则（如年龄150岁）标记；第二步处理缺失值，需结合业务场景选择删除（缺失率70%且无替代变量）、均值/中位数填充（数值型）、众数填充（分类型）或模型预测填充（如用随机森林预测缺失值）；第三步纠正不一致，例如多源数据中“用户性别”出现“男”“男性”“M”等，需统一编码；第四步处理重复值，通过主键（如订单ID）或组合键（用户ID+时间戳）去重；第五步验证清洗效果，对比清洗前后数据分布（如均值、分位数）和业务指标（如转化率）的变化，确保未破坏业务逻辑。

Q：如何用SQL实现“计算每个用户最近一次购买时间与第一次购买时间的间隔天数”？

A：需使用窗口函数和日期函数。假设表结构为user_id（用户ID）、order_time（订单时间），SQL逻辑如下：

WITHuser_ordersAS(

SELECTuser_id,order_time,

MIN(order_time)OVER(PARTITIONBYuser_id)ASfirst_time,

MAX(order_time)OVER(PARTITIONBYuser_id)ASlast_time

FROMorders

)

SELECTuser_id,

DATEDIFF(day,first_time,last_time)ASinterval_days

FROMuser_orders

GROUPBYuser_id,first_time,last_time;

关键点：通过窗口函数按用户分区计算首次和末次时间，再用DATEDIFF计算间隔，需注意order_time需为日期或时间戳类型。

Q：用户次日留存率下降5%，请说明分析思路。

A：采用“拆解-分群-归因”三步法。首先拆解留存率公式：次日留存率=（当日新增用户中次日活跃数）/当日新增用户数，需确认是分子（次日活跃数）下降还是分母（新增用户数）上升导致。其次分群分析，按渠道（如自然流量/广告投放）、设备（iOS/Android）、用户画像（年龄/性别）分组，定位异常群组（如某广告渠道留存率下降20%）。最后归因验证，对异常群组进一步分析：检查该渠道新增用户的行为路径（如注册流程是否卡顿）、首日使用时长（是否低于均值）、功能使用情况（如未完成核心操作），结合日志数据（如登录失败次数）和用户反馈（如投诉）确认具体原因，可能是渠道投放质量下降、客户端新版本BUG或活动奖励发放延迟。

Q：用Python的Pandas实现“筛选出订单金额前20%的用户，并计算这些用户的平均客单价”。

A：步骤如下：

（1）按用户分组计算总订单金额：user_total=df.groupby(user_id)[amount].sum().reset_index()

（2）计算用户金额的分位数，筛选前20%：threshold=user_total[amount].quantile(0.8)

（3）筛选高价值用户：high_value_users=user_total[user_total[amount]=threshold]

（4）计算平均客单价（总金额/总订单数）：需关联原始订单表，统计每个高价值用户的订单数，再求平均。代码示例：

merged=df.merge(high_value_users[[user_id]],on=user_id)

avg_per_order=merged[amount].sum()/merged.shape[0]

注意：若需“前20%用户”指数量上的前20%（非金额分位数），则用nlargest方法：top_users=user_total.nlargest(int(len(user_total)0.2),amount)。

Q：如何评估A/B测试的结果有效性？需关注哪些指标？

A：有效性评估需从统计和业务两方面。统计层面：（1）样本量是否达标，通过功率计算（如α=0.05，β=0.2，预期效应量）确保检验效能；（2）显著性水平，p值0.05且置信区间不包含0；（3）随机分组是否均衡，检查两组在关键变量（如用户年龄、历史活跃度）上的分布是否无显著差异（用t检验或卡方检验）。业务层面：（1）核心指标（如转化率）是否有正向变化；（2）衍生指标（如客单价、留存率）是否受负面影响；（3