大数据工程技术人员初级理论考核试题及答案.docxVIP

  • 2
  • 0
  • 约7.51千字
  • 约 21页
  • 2026-05-19 发布于未知
  • 举报

大数据工程技术人员初级理论考核试题及答案.docx

大数据工程技术人员初级理论考核试题及答案

一、单项选择题(每题2分,共30分)

1.以下哪项不是Hadoop生态体系的核心组件?

A.HDFS

B.YARN

C.Spark

D.MapReduce

2.关于HDFS的块(Block)存储机制,以下描述错误的是?

A.默认块大小为128MB

B.块大小可通过配置文件调整

C.小文件存储会占用更多NameNode内存

D.块复制因子默认是2

3.数据清洗过程中,针对“用户年龄字段出现‘-5’”的异常值,最合理的处理方式是?

A.直接删除该条记录

B.用字段平均值填充

C.标记为缺失值后人工核查

D.保留原始值不做处理

4.以下哪种场景最适合使用HBase存储?

A.海量历史日志的批量分析

B.实时查询用户的最新交易记录

C.定期汇总的统计报表数据

D.非结构化文本的全文检索

5.Spark中RDD(弹性分布式数据集)的“弹性”主要体现在?

A.自动进行内存与磁盘的存储切换

B.支持多种数据源的灵活读取

C.基于血缘关系的容错机制

D.动态调整分区数量

6.关于Kafka的分区(Partition)机制,以下说法正确的是?

A.分区数越多,消费者并行度越低

B.消息按ke

文档评论(0)

1亿VIP精品文档

相关文档