2026年大数据工程师职业资格考试题库(附答案和详细解析)(0119).docxVIP

  • 1
  • 0
  • 约9.41千字
  • 约 12页
  • 2026-03-13 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0119).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是HDFS(Hadoop分布式文件系统)的核心设计目标?

A.支持低延迟的实时数据访问

B.存储海量非结构化/半结构化数据

C.高效处理小文件(100MB)

D.提供强一致性的事务支持

答案:B

解析:HDFS的核心设计目标是存储和处理海量数据(通常为GB/TB级),尤其适合非结构化/半结构化数据(如日志、文本)。错误选项:A错误,HDFS是批量处理系统,不追求低延迟;C错误,HDFS的块大小(默认128MB)导致小文件会占用过多NameNode内存,不适合存储小文件;D错误,HDFS仅保证“一次写入多次读取”的一致性,不支持事务。

以下哪个工具属于离线批处理计算框架?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheMapReduce

D.ApacheKafka

答案:C

解析:MapReduce是经典的离线批处理框架,适用于大规模数据的分布式计算。错误选项:A(Flink是流处理框架)、B(SparkStreaming是微批处理流计算)、D(Kafka是消息队列)均不符合。

数据清洗中“处理缺失值”的常用方法不包括?

A.删除缺失值所在行

B.用均值/中位数填充

C.用回归模型预测填充

D.直接保留缺失值用于后续分析

答案:D

解析:缺失值需处理后才能用于分析,否则可能导致模型偏差或计算错误。错误选项:A、B、C均为常见处理方法(删除、统计值填充、模型预测填充)。

以下哪种存储系统适合实时查询高并发的键值对数据?

A.HDFS

B.HBase

C.Hive

D.SparkSQL

答案:B

解析:HBase是基于HDFS的列存储数据库,支持高并发的实时读写,适合键值对场景(如用户信息快速查询)。错误选项:A(HDFS是文件存储,不支持实时查询)、C(Hive是数据仓库,适合离线分析)、D(SparkSQL是计算引擎,非存储系统)。

流处理中“事件时间(EventTime)”指的是?

A.数据被处理系统接收的时间

B.数据在数据源产生的时间

C.数据被写入存储系统的时间

D.数据触发窗口计算的时间

答案:B

解析:事件时间(EventTime)是数据实际发生的时间(如用户点击行为的时间戳),是流处理中处理乱序数据的关键。错误选项:A是摄入时间(IngestionTime),C是存储时间,D是处理时间(ProcessingTime)。

YARN(Hadoop资源管理)中,负责为应用程序分配资源的组件是?

A.ResourceManager

B.NodeManager

C.ApplicationMaster

D.DataNode

答案:A

解析:ResourceManager是全局资源管理器,负责集群资源的统一分配和调度。错误选项:B(NodeManager管理单个节点资源)、C(ApplicationMaster管理单个应用的资源请求)、D(HDFS数据节点)。

数据仓库(DataWarehouse)的核心特性不包括?

A.面向主题

B.实时更新

C.集成性

D.历史数据存储

答案:B

解析:数据仓库主要用于分析,数据通常是批量加载(如每日/小时更新),而非实时更新(实时性是数据湖或OLTP系统的特性)。错误选项:A、C、D均为数据仓库的核心特性(面向主题组织、多源数据集成、存储历史数据)。

以下哪项属于大数据安全中的“数据脱敏”技术?

A.网络防火墙部署

B.对用户身份证号进行部分隐藏(如4403****1234)

C.数据加密传输(SSL/TLS)

D.限制数据库访问权限

答案:B

解析:数据脱敏是对敏感数据进行变形处理(如掩码、替换),使其失去隐私价值但保留使用价值。错误选项:A(网络安全)、C(传输安全)、D(访问控制)均属于其他安全措施。

以下哪个工具是大数据机器学习平台?

A.ApacheAirflow

B.ApacheZeppelin

C.ApacheMahout

D.ApacheSqoop

答案:C

解析:Mahout是Apache的机器学习库,支持分布式环境下的分类、聚类等算法。错误选项:A(工作流调度)、B(数据可视化与分析)、D(数据迁移工具)。

数据治理的核心目标是?

A.提高数据处理速度

B.确保数据的准确性、完整性和可用性

C.增加数据存储容量

D.优化计算资源利用率

答案:B

解析:数据治理通过制度、流程和技术手段,保障数据质量(准确、完整)和可管理性(可用、可追溯)。错误选项:A(计算效率)、C(存储能力)、D(资源优化)均为大数据工程的局部目标。

二、多项选

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档