2026年大数据分析师笔试题及解析.docxVIP

  • 1
  • 0
  • 约4.3千字
  • 约 12页
  • 2026-02-10 发布于福建
  • 举报

第PAGE页共NUMPAGES页

2026年大数据分析师笔试题及解析

一、单选题(共10题,每题2分,合计20分)

考察方向:大数据基础理论、技术选型、行业应用

1.在处理大规模数据时,下列哪种存储格式最适合用于分布式计算框架(如Spark)的shuffle过程?

A.JSON

B.Parquet

C.Avro

D.CSV

答案:B

解析:Parquet采用列式存储和向量化编码,适合分布式计算中的shuffle优化,能显著减少数据传输量和计算开销。JSON和CSV是行式存储,不适合shuffle;Avro虽支持列式,但Parquet在通用性和性能上更优。

2.某电商平台需实时分析用户购买行为,要求低延迟(秒级)且数据不丢失。以下哪种架构最合适?

A.HadoopMapReduce

B.Flink实时计算

C.Hive批处理

D.SparkSQL

答案:B

解析:Flink支持事件时间处理和状态管理,适合实时流处理场景;MapReduce和Hive是批处理;SparkSQL兼顾批流但实时性不如Flink。

3.在数据特征工程中,下列哪项属于过拟合的典型表现?

A.特征选择过多

B.特征缺失严重

C.模型训练集误差极低,测试集误差高

D.特征维度过高

答案:C

解析:过拟合指模型仅记住训练数据,泛化能力差。选项C是典型症状;A和D可能导致过拟合,但C更直接;B与过拟合无关。

4.某城市交通部门需分析实时车流量,数据每5秒产生1万条。以下哪种组件最适合作为数据入口?

A.Kafka

B.RabbitMQ

C.HDFS

D.Elasticsearch

答案:A

解析:Kafka高吞吐、低延迟,适合高并发流数据接入;RabbitMQ是消息队列,但不如Kafka适合实时场景;HDFS是存储;Elasticsearch是搜索。

5.在数据清洗中,处理缺失值最常用的方法是?

A.删除缺失行

B.均值/中位数填充

C.回归预测填充

D.以上都是

答案:D

解析:删除行可能丢失信息;均值/中位数填充简单高效;回归预测填充更精确但计算量更大。实际应用中常结合使用。

6.某金融公司需分析用户信用风险,数据量达10GB,且需支持SQL查询。以下哪种技术最合适?

A.Elasticsearch

B.Presto+Hive

C.TensorFlow

D.Redis

答案:B

解析:Presto支持跨集群SQL查询,Hive处理大规模数据;Elasticsearch是搜索;TensorFlow是机器学习;Redis是缓存。

7.在Spark中,以下哪个操作属于Transformation?

A.`collect()`

B.`map()`

C.`saveAsTextFile()`

D.`count()`

答案:B

解析:Transformation有延迟执行(如`map()`);`collect()`和`count()`是Action;`saveAsTextFile()`是输出动作。

8.某电商需分析用户画像,数据包含年龄、性别、消费金额等。以下哪个算法最适合?

A.决策树

B.K-Means聚类

C.逻辑回归

D.LDA主题模型

答案:B

解析:聚类算法用于用户分群;决策树适合分类;逻辑回归是二分类;LDA用于文本主题分析。

9.在数据安全领域,以下哪项不属于数据脱敏方法?

A.随机数替换

B.哈希加密

C.K-Means聚类

D.防火墙隔离

答案:C

解析:聚类是分析算法;随机数替换、哈希加密、防火墙隔离均属于脱敏技术。

10.某运营商需分析用户通话记录,数据每小时增长1TB。以下哪种压缩算法最合适?

A.GZIP

B.Snappy

C.LZ4

D.Zstandard

答案:C

解析:LZ4速度最快,适合实时场景;GZIP压缩率高但慢;Snappy次之;Zstandard兼顾速度与压缩率,但LZ4更优。

二、多选题(共5题,每题3分,合计15分)

考察方向:大数据生态、工程实践、算法理解

1.以下哪些属于Hadoop生态系统组件?

A.Hive

B.YARN

C.Elasticsearch

D.HDFS

E.Flink

答案:A、B、D

解析:Hive/YARN/HDFS是Hadoop核心;Elasticsearch是搜索;Flink是流处理框架,独立于Hadoop。

2.在数据预处理中,以下哪些属于异常值处理方法?

A.3σ法则过滤

B.分位数法限制

C.IQR(四分位距)过滤

D.标准化处理

答案:A、B、C

解析:3σ/IQR是异常值检测方法;标准化是归一化,非异常值处理。

3.某电商

文档评论(0)

1亿VIP精品文档

相关文档