- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据岗位招聘面试题与参考回答(某大型央企)2025年
一、基础能力测试(共30分)
(一)单项选择题(每题2分,共10分)
1.在假设检验中,若原假设为H?:μ=μ?,备择假设为H?:μ≠μ?,当样本量固定时,若增大显著性水平α(如从0.05提高到0.1),则以下哪项正确?
A.第一类错误概率降低,第二类错误概率升高
B.第一类错误概率升高,第二类错误概率降低
C.两类错误概率均降低
D.两类错误概率均升高
参考回答:B。显著性水平α是原假设为真时拒绝原假设的概率(第一类错误),α增大意味着更容易拒绝原假设,因此第一类错误概率升高;而第二类错误β是原假设为假时接受原假设的概率,α与β在样本量固定时呈反向关系,故β降低。
2.以下哪种数据清洗方法最适合处理“某用户年龄字段值为-5”的异常值?
A.直接删除该记录
B.用字段均值替换
C.用相邻记录的中位数插值
D.结合业务逻辑验证合理性后修正
参考回答:D。年龄为负数明显不符合业务逻辑,但需先确认是否为输入错误(如多输负号),若为系统错误可能需联系数据源方核查,直接删除或简单替换可能丢失其他有效信息,因此优先结合业务验证后修正。
3.关于SQL窗口函数,以下说法错误的是?
A.窗口函数使用OVER()子句定义窗口范围
B.ROW_NUMBER()与RANK()的区别在于是否处理并列值
C.窗口函数可以在WHERE子句中使用
D.窗口函数常用于计算累计值或排名
参考回答:C。窗口函数的执行顺序在WHERE之后,因此无法在WHERE子句中使用,需通过子查询或CTE间接实现过滤。
4.以下哪项不是特征工程中处理类别特征的常用方法?
A.独热编码(One-HotEncoding)
B.目标编码(TargetEncoding)
C.主成分分析(PCA)
D.标签编码(LabelEncoding)
参考回答:C。PCA是降维方法,用于连续特征的维度压缩,而非直接处理类别特征;其他选项均为类别特征编码的常用手段。
5.在Hadoop生态中,负责资源管理和任务调度的组件是?
A.HDFS
B.YARN
C.MapReduce
D.HBase
参考回答:B。YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的分配和任务调度;HDFS是分布式文件系统,MapReduce是计算框架,HBase是分布式数据库。
(二)简答题(每题5分,共20分)
1.请解释“辛普森悖论”的含义,并举例说明如何避免。
参考回答:辛普森悖论指在分组数据中呈现的趋势,在合并数据后可能反转的现象。例如,某药企测试两种新药,分组统计时药A在男性和女性群体中的有效率均高于药B,但合并男女数据后药B有效率更高(因药B的测试者中女性占比大,而女性整体有效率更低)。避免方法:①明确分析目标,识别关键混淆变量(如本例中的性别);②分层分析与整体分析结合,验证趋势一致性;③引入回归模型控制混淆变量(如加入性别作为控制变量)。
2.简述数据仓库(DataWarehouse)与数据库(Database)的核心区别。
参考回答:核心区别体现在设计目标与应用场景:①数据库面向事务处理(OLTP),支持高频增删改查,强调实时性和数据一致性(如银行交易系统);数据仓库面向分析处理(OLAP),支持复杂查询与多维分析,强调历史数据存储与聚合(如企业经营报表)。②数据库采用第三范式设计(减少冗余),数据仓库常采用星型/雪花模型(优化查询效率)。③数据库存储当前实时数据,数据仓库存储历史全量数据(通常按时间分区)。
3.请说明如何评估一个分类模型的性能,常用指标有哪些?
参考回答:评估需结合业务场景(如是否关注召回或精确),常用指标包括:①准确率(Accuracy):总正确预测比例,但不适用于类别不平衡场景;②精确率(Precision):正预测中实际为正的比例(关注“查准”);③召回率(Recall):实际正例中被正确预测的比例(关注“查全”);④F1分数:精确率与召回率的调和平均,平衡两者;⑤ROC-AUC:反映模型在不同阈值下的分类能力,适用于不平衡数据;⑥混淆矩阵:直观展示各类别预测结果的分布。
4.简述数据脱敏的常用技术,并举例说明央企数据场景中的应用。
参考回答:数据脱敏技术分为静态脱敏(对存储数据处理)和动态脱敏(对查询时数据处理),常用方法:①替换(如将身份证号后4位替换为“”);②掩码(如手机号显示为“1381234”)
您可能关注的文档
最近下载
- 《员工敬业度》课件.ppt VIP
- 2025年智能数据中心智慧数据中心规划建设方案.docx
- 川教版《生命生态安全》九年级上册第四课 正确使用金融支付工具 教学设计.pdf VIP
- 健身强体体魄锻炼主题班会PPT课件.pptx VIP
- 高标准农田项目施工部冬季施工已有设施和管线的加固保护等特殊情况下的施工措施.docx VIP
- 九年级语文上册教学探究积累课件《智取生辰纲》.pptx VIP
- 2025年党政领导干部拟任县处级资格考试试题全套.doc VIP
- 民航市场营销 项目6 互利共赢——民航市场营销的分销策略.pptx
- -互联网协议IP.ppt VIP
- T_CCUA 016-2021 超级计算数据中心设计要求.docx VIP
原创力文档


文档评论(0)