2026年国开电大大数据技术概论形考题库100道及参考答案【研优卷】.docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及参考答案【研优卷】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Spark(内存计算引擎)

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于在多台服务器上分布式存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Spark是独立的快速计算引擎,不属于Hadoop核心组件。因此正确答案为A。

2、在大数据处理流程中,对数据进行缺失值填充、异常值处理的操作属于以下哪个环节?

A.数据清洗

B.数据集成

C.数据转换

D.数据挖掘

【答案】:A

解析:本题考察大数据预处理环节知识点。数据清洗是对原始数据进行去重、填补缺失值、处理异常值等操作,确保数据质量;数据集成是合并多源数据,数据转换是对数据格式/单位进行标准化,数据挖掘是从数据中提取有价值信息(属于分析阶段)。选项A为正确答案。

3、Hadoop生态系统中,哪个组件负责分布式文件存储,是大数据存储的核心基础?

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统组件功能知识点。正确答案为B。解析:HDFS(分布式文件系统)是Hadoop的核心组件之一,基于分布式架构实现海量数据的可靠存储;A选项MapReduce是分布式计算框架,负责并行处理海量数据;C选项YARN是资源管理器,负责集群资源调度;D选项Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此B为正确选项。

4、Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS是Hadoop生态系统的核心组件,专门负责海量数据的分布式文件存储;MapReduce是分布式计算框架,YARN负责资源管理和调度,Hive是基于Hadoop的数据仓库工具,用于数据仓库构建和查询。因此正确答案为A,其他选项分别对应Hadoop生态系统的不同功能模块。

5、以下哪种数据库适用于存储微博评论(包含用户ID、评论内容、时间戳等半结构化信息)?

A.MySQL(关系型数据库)

B.MongoDB(文档型NoSQL数据库)

C.Redis(内存数据库)

D.HBase(列族数据库)

【答案】:B

解析:本题考察不同数据库的适用场景。A选项MySQL是关系型数据库,需固定表结构,无法灵活存储半结构化数据;B选项MongoDB是文档型NoSQL数据库,以JSON格式存储数据,天然支持半结构化信息(如微博评论的可变字段);C选项Redis是内存数据库,适合高频访问的缓存场景,不适合存储半结构化数据;D选项HBase是列族数据库,主要用于存储结构化日志数据。因此正确答案为B。

6、在大数据处理流程中,对原始数据进行去重、填补缺失值、处理异常值等操作属于哪个关键步骤?

A.数据清洗(DataCleaning)

B.数据集成(DataIntegration)

C.数据变换(DataTransformation)

D.数据规约(DataReduction)

【答案】:A

解析:本题考察大数据预处理的核心步骤。数据清洗是处理原始数据质量问题的第一步,主要包括去重、填补缺失值、处理异常值等操作;B选项数据集成是合并多源数据,C选项数据变换是转换数据格式或标准化,D选项数据规约是减少数据量,均不符合题意。

7、Hadoop分布式文件系统(HDFS)的核心作用是?

A.存储海量结构化与非结构化数据

B.实现大规模数据的并行计算

C.对数据进行清洗和转换

D.对数据进行实时可视化展示

【答案】:A

解析:本题考察HDFS功能知识点。HDFS是Hadoop生态系统的核心存储组件,其设计目标是高容错、高吞吐量,适用于存储PB级以上的海量数据(含文本、日志、图片等结构化/非结构化数据)。B选项并行计算是MapReduce的核心功能;C选项数据清洗属于数据预处理阶段;D选项数据可视化属于数据分析后的结果呈现环节,均非HDFS的核心作用。

8、在大数据处理流程中,“将不同来源的数据格式统一、单位转换等操作”属于哪个预处理环节?

A.数据采集

B.数据

文档评论(0)

1亿VIP精品文档

相关文档