- 2
- 0
- 约7.51千字
- 约 21页
- 2026-05-19 发布于未知
- 举报
大数据工程技术人员初级理论考核试题及答案
一、单项选择题(每题2分,共30分)
1.以下哪项不是Hadoop生态体系的核心组件?
A.HDFS
B.YARN
C.Spark
D.MapReduce
2.关于HDFS的块(Block)存储机制,以下描述错误的是?
A.默认块大小为128MB
B.块大小可通过配置文件调整
C.小文件存储会占用更多NameNode内存
D.块复制因子默认是2
3.数据清洗过程中,针对“用户年龄字段出现‘-5’”的异常值,最合理的处理方式是?
A.直接删除该条记录
B.用字段平均值填充
C.标记为缺失值后人工核查
D.保留原始值不做处理
4.以下哪种场景最适合使用HBase存储?
A.海量历史日志的批量分析
B.实时查询用户的最新交易记录
C.定期汇总的统计报表数据
D.非结构化文本的全文检索
5.Spark中RDD(弹性分布式数据集)的“弹性”主要体现在?
A.自动进行内存与磁盘的存储切换
B.支持多种数据源的灵活读取
C.基于血缘关系的容错机制
D.动态调整分区数量
6.关于Kafka的分区(Partition)机制,以下说法正确的是?
A.分区数越多,消费者并行度越低
B.消息按ke
原创力文档

文档评论(0)