2026年国开电大大数据技术形考题库100道含答案【黄金题型】.docxVIP

下载本文档

0
0
约2.44万字
约 38页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道含答案【黄金题型】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中，负责分布式存储海量数据的组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统，核心作用是分布式存储海量数据；选项B的MapReduce是分布式计算框架，用于并行处理大数据任务；选项C的YARN负责集群资源管理和调度；选项D的Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。因此，负责存储的组件是HDFS，正确答案为A。

2、Spark作为主流大数据计算框架，其相比MapReduce的核心优势在于？

A.更适合大规模离线批处理任务

B.基于内存计算，运行速度更快

C.仅支持结构化数据处理

D.对硬件资源要求更低

【答案】：B

解析：本题考察主流大数据计算框架（SparkvsMapReduce）的技术差异知识点。Spark的核心优势是采用内存计算模式，将中间结果存储在内存而非磁盘，大幅减少IO操作，因此运行速度比MapReduce（基于磁盘的迭代计算）快数倍至数十倍。选项A错误，MapReduce更擅长传统大规模离线批处理；选项C错误，Spark支持结构化、半结构化和非结构化数据；选项D错误，Spark若全内存计算可能需要更多内存资源。因此正确答案为B。

3、在大数据实时数据处理中，用于构建高吞吐、低延迟的消息系统的开源框架是？

A.Flume（日志采集工具）

B.Sqoop（数据导入导出工具）

C.Kafka（分布式消息队列）

D.Hive（数据仓库工具）

【答案】：C

解析：本题考察大数据生态工具知识点。Kafka是高吞吐、低延迟的分布式消息系统，适用于实时数据流处理；Flume专注于日志数据采集，Sqoop用于结构化数据导入导出，Hive是基于Hadoop的数据仓库工具。因此正确答案为C。

4、在Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，用于并行处理海量数据；YARN是资源管理器，负责集群资源调度；Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。因此负责分布式存储的组件是HDFS，正确答案为A。

5、在Hadoop分布式计算框架中，负责分布式存储的核心组件是？

A.MapReduce（分布式计算框架）

B.HDFS（分布式文件系统）

C.YARN（资源管理器）

D.ZooKeeper（分布式协调服务）

【答案】：B

解析：本题考察Hadoop生态系统核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，YARN负责集群资源管理，ZooKeeper提供分布式协调服务。因此正确答案为B。

6、在大数据预处理中，以下哪种方法不属于处理缺失值的常用手段？

A.删除包含缺失值的记录

B.使用均值/中位数进行插补

C.直接忽略缺失数据

D.通过KNN算法预测缺失值

【答案】：C

解析：本题考察数据预处理中缺失值处理方法。常用缺失值处理方法包括A（删除）、B（统计量插补）、D（基于模型预测）；C选项“直接忽略数据”不符合数据处理规范，会导致数据信息损失且缺乏系统性。因此正确答案为C。

7、Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态系统组件知识点。HDFS是Hadoop的分布式文件系统，专门负责海量数据的分布式存储；MapReduce是批处理计算框架，YARN负责集群资源管理与调度，Hive是数据仓库工具用于数据查询与分析，均不负责核心存储。

8、在大数据处理流程中，用于处理数据中的缺失值、异常值和重复数据的环节是？

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】：B

解析：数据清洗是数据预处理的关键步骤，主要任务包括处理缺失值（如填充/删除）、异常值（检测/修正）和重复数据（去重）；数据集成是合并多

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道含答案【黄金题型】.docxVIP