2025年大数据分析师测试题库及答案.docxVIP

下载本文档

1
0
约9.08千字
约 23页
2025-08-08 发布于四川
举报
版权申诉

2025年大数据分析师测试题库及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年大数据分析师测试题库及答案

一、单项选择题（每题2分，共20分）

1.以下哪项不是数据清洗中处理缺失值的常用方法？

A.均值填充法

B.随机森林预测填充

C.直接删除含缺失值的记录

D.主成分分析（PCA）降维

答案：D

解析：主成分分析（PCA）是用于降维的方法，不直接处理缺失值；其他选项均为缺失值处理的常见手段。

2.在Hadoop生态中，以下哪个组件负责资源管理和任务调度？

A.HDFS

B.YARN

C.Hive

D.Spark

答案：B

解析：YARN（YetAnotherResourceNegotiator）是Hadoop的资源管理系统，负责集群资源的分配和任务调度；HDFS是分布式文件系统，Hive是数据仓库工具，Spark是计算框架。

3.以下哪种场景最适合使用实时流处理框架（如Flink）？

A.每日凌晨批量计算用户昨日消费总额

B.监控电商平台商品点击流，实时计算5分钟内的热门商品

C.对历史销售数据进行季度趋势分析

D.定期更新用户画像标签（每周一次）

答案：B

解析：实时流处理适用于低延迟、持续输入的数据流场景，如实时热门商品计算；其他选项均为批量处理场景。

4.在特征工程中，对“用户注册时间”字段进行特征提取时，以下哪项操作最不合理？

A.提取注册月份作为分类型特征

B.计算注册时间与当前时间的时间差（天数）作为数值特征

C.将注册时间转换为时间戳（UnixTimestamp）直接作为数值特征

D.将注册时间按“工作日/周末”分组作为分类型特征

答案：C

解析：时间戳本身是连续数值，但直接作为特征可能无法捕捉时间周期性（如月份、星期），需结合业务含义进行拆解；其他选项均合理利用了时间的业务属性。

5.某数据集存在严重的数据倾斜（某一Key占比90%），以下哪种优化方法最不适用？

A.在Map阶段增加随机前缀，分散Key的分布

B.调整Reduce任务数量，增加并行度

C.对倾斜Key单独处理，剩余数据正常计算后合并

D.使用Hash分区替代Range分区

答案：D

解析：数据倾斜通常由Key分布不均导致，Hash分区可能加剧倾斜（若Key本身Hash后仍集中）；其他选项均为常见的倾斜优化手段（如随机前缀、单独处理、调整并行度）。

6.评估分类模型时，若业务目标是“尽可能少漏掉真正的正例（如癌症检测）”，应重点关注以下哪个指标？

A.准确率（Accuracy）

B.精确率（Precision）

C.召回率（Recall）

D.F1分数

答案：C

解析：召回率（Recall）衡量正例被正确识别的比例，漏诊率低时需高召回；精确率关注预测为正的样本中实际为正的比例（避免误判），准确率受类别不平衡影响大。

7.以下哪项不属于数据湖（DataLake）的典型特征？

A.存储结构化、半结构化、非结构化数据

B.支持ACID事务（如DeltaLake）

C.数据以原始格式（如CSV、Parquet）存储

D.预先定义严格的Schema（模式）

答案：D

解析：数据湖的核心是“模式延迟绑定（Schema-on-Read）”，在使用时定义Schema；预先定义Schema是数据仓库（DataWarehouse）的特征。

8.在Spark中，以下哪项操作属于宽依赖（WideDependency）？

A.map()

B.filter()

C.groupByKey()

D.flatMap()

答案：C

解析：宽依赖会导致Shuffle（数据重分区），如groupByKey()需要将相同Key的数据分发到同一分区；map、filter、flatMap是窄依赖（每个分区仅依赖父RDD的少量分区）。

9.关于联邦学习（FederatedLearning），以下描述错误的是？

A.适用于数据隐私要求高的场景（如医疗、金融）

B.中心服务器仅传输模型参数，不直接获取原始数据

C.要求所有参与方的数据分布完全一致（同构联邦）

D.可分为横向联邦（样本同分布）、纵向联邦（特征同分布）

答案：C

解析：联邦学习分为同构（数据分布一致）和异构（数据分布不同），并不要求所有参与方数据分布完全一致。

10.某电商用户行为数据中，“用户ID”字段的基数（Cardinality）远大于“商品品类”字段，若需对两者进行编码，以下策略最合理的是？

A.对“用户ID”使用独热编码（

您可能关注的文档

文档评论（0）

都那样！ + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大数据分析师测试题库及答案.docxVIP