数据岗位招聘面试题与参考回答(某大型央企)2025年.docxVIP

下载本文档

1
0
约5.88千字
约 12页
2025-11-26 发布于四川
举报
版权申诉

数据岗位招聘面试题与参考回答(某大型央企)2025年.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据岗位招聘面试题与参考回答(某大型央企)2025年

一、基础能力测试（共30分）

（一）单项选择题（每题2分，共10分）

1.在假设检验中，若原假设为H?:μ=μ?，备择假设为H?:μ≠μ?，当样本量固定时，若增大显著性水平α（如从0.05提高到0.1），则以下哪项正确？

A.第一类错误概率降低，第二类错误概率升高

B.第一类错误概率升高，第二类错误概率降低

C.两类错误概率均降低

D.两类错误概率均升高

参考回答：B。显著性水平α是原假设为真时拒绝原假设的概率（第一类错误），α增大意味着更容易拒绝原假设，因此第一类错误概率升高；而第二类错误β是原假设为假时接受原假设的概率，α与β在样本量固定时呈反向关系，故β降低。

2.以下哪种数据清洗方法最适合处理“某用户年龄字段值为-5”的异常值？

A.直接删除该记录

B.用字段均值替换

C.用相邻记录的中位数插值

D.结合业务逻辑验证合理性后修正

参考回答：D。年龄为负数明显不符合业务逻辑，但需先确认是否为输入错误（如多输负号），若为系统错误可能需联系数据源方核查，直接删除或简单替换可能丢失其他有效信息，因此优先结合业务验证后修正。

3.关于SQL窗口函数，以下说法错误的是？

A.窗口函数使用OVER()子句定义窗口范围

B.ROW_NUMBER()与RANK()的区别在于是否处理并列值

C.窗口函数可以在WHERE子句中使用

D.窗口函数常用于计算累计值或排名

参考回答：C。窗口函数的执行顺序在WHERE之后，因此无法在WHERE子句中使用，需通过子查询或CTE间接实现过滤。

4.以下哪项不是特征工程中处理类别特征的常用方法？

A.独热编码（One-HotEncoding）

B.目标编码（TargetEncoding）

C.主成分分析（PCA）

D.标签编码（LabelEncoding）

参考回答：C。PCA是降维方法，用于连续特征的维度压缩，而非直接处理类别特征；其他选项均为类别特征编码的常用手段。

5.在Hadoop生态中，负责资源管理和任务调度的组件是？

A.HDFS

B.YARN

C.MapReduce

D.HBase

参考回答：B。YARN（YetAnotherResourceNegotiator）是Hadoop的资源管理系统，负责集群资源的分配和任务调度；HDFS是分布式文件系统，MapReduce是计算框架，HBase是分布式数据库。

（二）简答题（每题5分，共20分）

1.请解释“辛普森悖论”的含义，并举例说明如何避免。

参考回答：辛普森悖论指在分组数据中呈现的趋势，在合并数据后可能反转的现象。例如，某药企测试两种新药，分组统计时药A在男性和女性群体中的有效率均高于药B，但合并男女数据后药B有效率更高（因药B的测试者中女性占比大，而女性整体有效率更低）。避免方法：①明确分析目标，识别关键混淆变量（如本例中的性别）；②分层分析与整体分析结合，验证趋势一致性；③引入回归模型控制混淆变量（如加入性别作为控制变量）。

2.简述数据仓库（DataWarehouse）与数据库（Database）的核心区别。

参考回答：核心区别体现在设计目标与应用场景：①数据库面向事务处理（OLTP），支持高频增删改查，强调实时性和数据一致性（如银行交易系统）；数据仓库面向分析处理（OLAP），支持复杂查询与多维分析，强调历史数据存储与聚合（如企业经营报表）。②数据库采用第三范式设计（减少冗余），数据仓库常采用星型/雪花模型（优化查询效率）。③数据库存储当前实时数据，数据仓库存储历史全量数据（通常按时间分区）。

3.请说明如何评估一个分类模型的性能，常用指标有哪些？

参考回答：评估需结合业务场景（如是否关注召回或精确），常用指标包括：①准确率（Accuracy）：总正确预测比例，但不适用于类别不平衡场景；②精确率（Precision）：正预测中实际为正的比例（关注“查准”）；③召回率（Recall）：实际正例中被正确预测的比例（关注“查全”）；④F1分数：精确率与召回率的调和平均，平衡两者；⑤ROC-AUC：反映模型在不同阈值下的分类能力，适用于不平衡数据；⑥混淆矩阵：直观展示各类别预测结果的分布。

4.简述数据脱敏的常用技术，并举例说明央企数据场景中的应用。

参考回答：数据脱敏技术分为静态脱敏（对存储数据处理）和动态脱敏（对查询时数据处理），常用方法：①替换（如将身份证号后4位替换为“”）；②掩码（如手机号显示为“1381234”）

您可能关注的文档

文档评论（0）

189****1111 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据岗位招聘面试题与参考回答(某大型央企)2025年.docxVIP