2026年国开电大大数据技术概论形考题库100道及参考答案【研优卷】.docxVIP

下载本文档

0
0
约2.48万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道及参考答案【研优卷】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Spark（内存计算引擎）

【答案】：A

解析：本题考察Hadoop生态系统组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，专门用于在多台服务器上分布式存储海量数据；MapReduce是分布式计算框架，负责数据处理；YARN是资源管理器，负责集群资源调度；Spark是独立的快速计算引擎，不属于Hadoop核心组件。因此正确答案为A。

2、在大数据处理流程中，对数据进行缺失值填充、异常值处理的操作属于以下哪个环节？

A.数据清洗

B.数据集成

C.数据转换

D.数据挖掘

【答案】：A

解析：本题考察大数据预处理环节知识点。数据清洗是对原始数据进行去重、填补缺失值、处理异常值等操作，确保数据质量；数据集成是合并多源数据，数据转换是对数据格式/单位进行标准化，数据挖掘是从数据中提取有价值信息（属于分析阶段）。选项A为正确答案。

3、Hadoop生态系统中，哪个组件负责分布式文件存储，是大数据存储的核心基础？

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】：B

解析：本题考察Hadoop生态系统组件功能知识点。正确答案为B。解析：HDFS（分布式文件系统）是Hadoop的核心组件之一，基于分布式架构实现海量数据的可靠存储；A选项MapReduce是分布式计算框架，负责并行处理海量数据；C选项YARN是资源管理器，负责集群资源调度；D选项Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。因此B为正确选项。

4、Hadoop生态系统中，负责分布式文件存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态系统组件功能。HDFS是Hadoop生态系统的核心组件，专门负责海量数据的分布式文件存储；MapReduce是分布式计算框架，YARN负责资源管理和调度，Hive是基于Hadoop的数据仓库工具，用于数据仓库构建和查询。因此正确答案为A，其他选项分别对应Hadoop生态系统的不同功能模块。

5、以下哪种数据库适用于存储微博评论（包含用户ID、评论内容、时间戳等半结构化信息）？

A.MySQL（关系型数据库）

B.MongoDB（文档型NoSQL数据库）

C.Redis（内存数据库）

D.HBase（列族数据库）

【答案】：B

解析：本题考察不同数据库的适用场景。A选项MySQL是关系型数据库，需固定表结构，无法灵活存储半结构化数据；B选项MongoDB是文档型NoSQL数据库，以JSON格式存储数据，天然支持半结构化信息（如微博评论的可变字段）；C选项Redis是内存数据库，适合高频访问的缓存场景，不适合存储半结构化数据；D选项HBase是列族数据库，主要用于存储结构化日志数据。因此正确答案为B。

6、在大数据处理流程中，对原始数据进行去重、填补缺失值、处理异常值等操作属于哪个关键步骤？

A.数据清洗（DataCleaning）

B.数据集成（DataIntegration）

C.数据变换（DataTransformation）

D.数据规约（DataReduction）

【答案】：A

解析：本题考察大数据预处理的核心步骤。数据清洗是处理原始数据质量问题的第一步，主要包括去重、填补缺失值、处理异常值等操作；B选项数据集成是合并多源数据，C选项数据变换是转换数据格式或标准化，D选项数据规约是减少数据量，均不符合题意。

7、Hadoop分布式文件系统（HDFS）的核心作用是？

A.存储海量结构化与非结构化数据

B.实现大规模数据的并行计算

C.对数据进行清洗和转换

D.对数据进行实时可视化展示

【答案】：A

解析：本题考察HDFS功能知识点。HDFS是Hadoop生态系统的核心存储组件，其设计目标是高容错、高吞吐量，适用于存储PB级以上的海量数据（含文本、日志、图片等结构化/非结构化数据）。B选项并行计算是MapReduce的核心功能；C选项数据清洗属于数据预处理阶段；D选项数据可视化属于数据分析后的结果呈现环节，均非HDFS的核心作用。

8、在大数据处理流程中，“将不同来源的数据格式统一、单位转换等操作”属于哪个预处理环节？

A.数据采集

B.数据

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道及参考答案【研优卷】.docxVIP