数据岗位招聘面试题与参考回答(某大型央企)2025年.docxVIP

数据岗位招聘面试题与参考回答(某大型央企)2025年.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据岗位招聘面试题与参考回答(某大型央企)2025年

一、基础能力测试(共30分)

(一)单项选择题(每题2分,共10分)

1.在假设检验中,若原假设为H?:μ=μ?,备择假设为H?:μ≠μ?,当样本量固定时,若增大显著性水平α(如从0.05提高到0.1),则以下哪项正确?

A.第一类错误概率降低,第二类错误概率升高

B.第一类错误概率升高,第二类错误概率降低

C.两类错误概率均降低

D.两类错误概率均升高

参考回答:B。显著性水平α是原假设为真时拒绝原假设的概率(第一类错误),α增大意味着更容易拒绝原假设,因此第一类错误概率升高;而第二类错误β是原假设为假时接受原假设的概率,α与β在样本量固定时呈反向关系,故β降低。

2.以下哪种数据清洗方法最适合处理“某用户年龄字段值为-5”的异常值?

A.直接删除该记录

B.用字段均值替换

C.用相邻记录的中位数插值

D.结合业务逻辑验证合理性后修正

参考回答:D。年龄为负数明显不符合业务逻辑,但需先确认是否为输入错误(如多输负号),若为系统错误可能需联系数据源方核查,直接删除或简单替换可能丢失其他有效信息,因此优先结合业务验证后修正。

3.关于SQL窗口函数,以下说法错误的是?

A.窗口函数使用OVER()子句定义窗口范围

B.ROW_NUMBER()与RANK()的区别在于是否处理并列值

C.窗口函数可以在WHERE子句中使用

D.窗口函数常用于计算累计值或排名

参考回答:C。窗口函数的执行顺序在WHERE之后,因此无法在WHERE子句中使用,需通过子查询或CTE间接实现过滤。

4.以下哪项不是特征工程中处理类别特征的常用方法?

A.独热编码(One-HotEncoding)

B.目标编码(TargetEncoding)

C.主成分分析(PCA)

D.标签编码(LabelEncoding)

参考回答:C。PCA是降维方法,用于连续特征的维度压缩,而非直接处理类别特征;其他选项均为类别特征编码的常用手段。

5.在Hadoop生态中,负责资源管理和任务调度的组件是?

A.HDFS

B.YARN

C.MapReduce

D.HBase

参考回答:B。YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的分配和任务调度;HDFS是分布式文件系统,MapReduce是计算框架,HBase是分布式数据库。

(二)简答题(每题5分,共20分)

1.请解释“辛普森悖论”的含义,并举例说明如何避免。

参考回答:辛普森悖论指在分组数据中呈现的趋势,在合并数据后可能反转的现象。例如,某药企测试两种新药,分组统计时药A在男性和女性群体中的有效率均高于药B,但合并男女数据后药B有效率更高(因药B的测试者中女性占比大,而女性整体有效率更低)。避免方法:①明确分析目标,识别关键混淆变量(如本例中的性别);②分层分析与整体分析结合,验证趋势一致性;③引入回归模型控制混淆变量(如加入性别作为控制变量)。

2.简述数据仓库(DataWarehouse)与数据库(Database)的核心区别。

参考回答:核心区别体现在设计目标与应用场景:①数据库面向事务处理(OLTP),支持高频增删改查,强调实时性和数据一致性(如银行交易系统);数据仓库面向分析处理(OLAP),支持复杂查询与多维分析,强调历史数据存储与聚合(如企业经营报表)。②数据库采用第三范式设计(减少冗余),数据仓库常采用星型/雪花模型(优化查询效率)。③数据库存储当前实时数据,数据仓库存储历史全量数据(通常按时间分区)。

3.请说明如何评估一个分类模型的性能,常用指标有哪些?

参考回答:评估需结合业务场景(如是否关注召回或精确),常用指标包括:①准确率(Accuracy):总正确预测比例,但不适用于类别不平衡场景;②精确率(Precision):正预测中实际为正的比例(关注“查准”);③召回率(Recall):实际正例中被正确预测的比例(关注“查全”);④F1分数:精确率与召回率的调和平均,平衡两者;⑤ROC-AUC:反映模型在不同阈值下的分类能力,适用于不平衡数据;⑥混淆矩阵:直观展示各类别预测结果的分布。

4.简述数据脱敏的常用技术,并举例说明央企数据场景中的应用。

参考回答:数据脱敏技术分为静态脱敏(对存储数据处理)和动态脱敏(对查询时数据处理),常用方法:①替换(如将身份证号后4位替换为“”);②掩码(如手机号显示为“1381234”)

文档评论(0)

189****1111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档