- 1
- 0
- 约4.3千字
- 约 12页
- 2026-02-10 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年大数据分析师笔试题及解析
一、单选题(共10题,每题2分,合计20分)
考察方向:大数据基础理论、技术选型、行业应用
1.在处理大规模数据时,下列哪种存储格式最适合用于分布式计算框架(如Spark)的shuffle过程?
A.JSON
B.Parquet
C.Avro
D.CSV
答案:B
解析:Parquet采用列式存储和向量化编码,适合分布式计算中的shuffle优化,能显著减少数据传输量和计算开销。JSON和CSV是行式存储,不适合shuffle;Avro虽支持列式,但Parquet在通用性和性能上更优。
2.某电商平台需实时分析用户购买行为,要求低延迟(秒级)且数据不丢失。以下哪种架构最合适?
A.HadoopMapReduce
B.Flink实时计算
C.Hive批处理
D.SparkSQL
答案:B
解析:Flink支持事件时间处理和状态管理,适合实时流处理场景;MapReduce和Hive是批处理;SparkSQL兼顾批流但实时性不如Flink。
3.在数据特征工程中,下列哪项属于过拟合的典型表现?
A.特征选择过多
B.特征缺失严重
C.模型训练集误差极低,测试集误差高
D.特征维度过高
答案:C
解析:过拟合指模型仅记住训练数据,泛化能力差。选项C是典型症状;A和D可能导致过拟合,但C更直接;B与过拟合无关。
4.某城市交通部门需分析实时车流量,数据每5秒产生1万条。以下哪种组件最适合作为数据入口?
A.Kafka
B.RabbitMQ
C.HDFS
D.Elasticsearch
答案:A
解析:Kafka高吞吐、低延迟,适合高并发流数据接入;RabbitMQ是消息队列,但不如Kafka适合实时场景;HDFS是存储;Elasticsearch是搜索。
5.在数据清洗中,处理缺失值最常用的方法是?
A.删除缺失行
B.均值/中位数填充
C.回归预测填充
D.以上都是
答案:D
解析:删除行可能丢失信息;均值/中位数填充简单高效;回归预测填充更精确但计算量更大。实际应用中常结合使用。
6.某金融公司需分析用户信用风险,数据量达10GB,且需支持SQL查询。以下哪种技术最合适?
A.Elasticsearch
B.Presto+Hive
C.TensorFlow
D.Redis
答案:B
解析:Presto支持跨集群SQL查询,Hive处理大规模数据;Elasticsearch是搜索;TensorFlow是机器学习;Redis是缓存。
7.在Spark中,以下哪个操作属于Transformation?
A.`collect()`
B.`map()`
C.`saveAsTextFile()`
D.`count()`
答案:B
解析:Transformation有延迟执行(如`map()`);`collect()`和`count()`是Action;`saveAsTextFile()`是输出动作。
8.某电商需分析用户画像,数据包含年龄、性别、消费金额等。以下哪个算法最适合?
A.决策树
B.K-Means聚类
C.逻辑回归
D.LDA主题模型
答案:B
解析:聚类算法用于用户分群;决策树适合分类;逻辑回归是二分类;LDA用于文本主题分析。
9.在数据安全领域,以下哪项不属于数据脱敏方法?
A.随机数替换
B.哈希加密
C.K-Means聚类
D.防火墙隔离
答案:C
解析:聚类是分析算法;随机数替换、哈希加密、防火墙隔离均属于脱敏技术。
10.某运营商需分析用户通话记录,数据每小时增长1TB。以下哪种压缩算法最合适?
A.GZIP
B.Snappy
C.LZ4
D.Zstandard
答案:C
解析:LZ4速度最快,适合实时场景;GZIP压缩率高但慢;Snappy次之;Zstandard兼顾速度与压缩率,但LZ4更优。
二、多选题(共5题,每题3分,合计15分)
考察方向:大数据生态、工程实践、算法理解
1.以下哪些属于Hadoop生态系统组件?
A.Hive
B.YARN
C.Elasticsearch
D.HDFS
E.Flink
答案:A、B、D
解析:Hive/YARN/HDFS是Hadoop核心;Elasticsearch是搜索;Flink是流处理框架,独立于Hadoop。
2.在数据预处理中,以下哪些属于异常值处理方法?
A.3σ法则过滤
B.分位数法限制
C.IQR(四分位距)过滤
D.标准化处理
答案:A、B、C
解析:3σ/IQR是异常值检测方法;标准化是归一化,非异常值处理。
3.某电商
您可能关注的文档
- 算法工程师考试题库及答案解析.docx
- 跨行业供应商质量管理专员面试全攻略及答案解析.docx
- 2026年工程督导管理能力测试题含答案.docx
- 精通光伏逆变器运维技术面试题解析.docx
- 物流管理岗位面试常见问题及答案.docx
- 2026年网络安全与防泄密顾问的招聘面试问题解析.docx
- 2026年能源实验室主管专业技能面试问题集.docx
- 政府公务员招录考试热点问题及参考答案解析.docx
- 中航集团航空商务管理人员面试题库及解析.docx
- 施工程师考试题库.docx
- 广西南宁2025-2026秋季期末八年级【语文】试卷(含答案).pdf
- 广西南宁2025-2026秋季期末高一化学试卷(含答案).pdf
- 广西南宁2025-2026秋季期末九年级数学试卷(含答案).pdf
- 广西南宁2025-2026秋季期末高一英语(含答案,无听力音频).pdf
- 广西南宁2025-2026秋季期末高一地理试卷(含答案).pdf
- 内科护理(中职):心包疾病病人的护理PPT教学课件.ppt
- 胆管结石的中医护理方法.ppt
- 内科护理(中职):心肌疾病病人的护理PPT教学课件.ppt
- 内科护理(中职):心律失常病人的护理PPT教学课件.ppt
- 嵌入式系统实践及工程应用—从基础到人工智能:具备AI算力的嵌入式系统开发PPT教学课件.pptx
原创力文档

文档评论(0)