2026年国开电大大数据技术形考题库100道附答案【基础题】.docxVIP

  • 1
  • 0
  • 约2.46万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附答案【基础题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下哪一项不属于大数据的4V特征?

A.Volume

B.Velocity

C.Variety

D.Validity

【答案】:D

解析:大数据的4V特征指的是Volume(规模性)、Velocity(高速性)、Variety(多样性)、Value(价值性)。选项D的“Validity(有效性)”并非4V特征之一,因此答案为D。

2、在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责并行计算任务;YARN是资源管理器,协调集群资源;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的核心组件是HDFS。

3、大数据的4V特征中,不包含以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)

【答案】:D

解析:本题考察大数据4V特征知识点,大数据经典4V特征为Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值),而Veracity(真实性)属于大数据扩展特征(5V中的第五个V),因此4V特征中不包含D选项,正确答案为D。

4、大数据的‘5V’核心特征中,不包含以下哪一项?

A.Volume(规模)

B.Validity(有效性)

C.Velocity(速度)

D.Variety(多样性)

【答案】:B

解析:本题考察大数据的核心特征。大数据的‘5V’特征包括Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值),而Validity(有效性)并非大数据的核心特征。因此正确答案为B。

5、在大数据预处理流程中,以下哪项操作属于数据清洗?

A.处理数据中的缺失值

B.合并多个数据源的数据

C.将数据转换为标准化格式

D.选择关键特征子集

【答案】:A

解析:本题考察大数据预处理步骤。数据清洗主要处理数据质量问题,包括缺失值填充、异常值处理、重复记录删除等;B属于数据集成,C属于数据转换,D属于特征选择(数据归约范畴)。因此正确答案为A。

6、以下哪项属于大数据预处理阶段的核心操作?

A.数据清洗

B.数据挖掘

C.模型训练

D.结果可视化

【答案】:A

解析:本题考察大数据处理流程各阶段的任务区分。大数据处理流程分为:数据采集→预处理→数据存储→分析挖掘→结果展示。预处理阶段的核心操作包括数据清洗(处理缺失值、去重、格式统一等)、数据集成等。选项B的数据挖掘属于分析阶段,C的模型训练属于建模阶段,D的结果可视化属于后处理阶段。因此正确答案为A。

7、Hadoop生态系统中,负责分布式存储的核心组件是?

A.MapReduce(计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统组件知识点。HDFS(分布式文件系统)是Hadoop生态系统的核心组件,专门负责大数据的分布式存储;A选项MapReduce是分布式计算框架,B选项YARN负责集群资源管理,D选项Hive是基于Hadoop的数据仓库工具,均不负责存储。因此正确答案为C。

8、大数据的特征中,体现数据产生和处理速度快的是以下哪一项?

A.Volume(数据量大)

B.Velocity(速度快)

C.Variety(数据多样性)

D.Veracity(数据真实性)

【答案】:B

解析:本题考察大数据的5V特征知识点。Volume指数据规模大,Velocity强调数据产生和处理的速度快,Variety表示数据类型多样(结构化、半结构化、非结构化),Veracity关注数据的准确性和可靠性。因此正确答案为B。

9、Hadoop生态系统中负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统包含多个组件:A选项HDFS是分布式文件系统,用于存储海量数据;B选项MapReduce是分布式计算框架,实现并行计算;C选项YARN(Yet

文档评论(0)

1亿VIP精品文档

相关文档