2026年国开电大大数据技术概论形考题库100道及完整答案【精选题】.docxVIP

  • 1
  • 0
  • 约2.49万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及完整答案【精选题】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、大数据的4V特征不包括以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)

【答案】:D

解析:本题考察大数据的核心特征(4V)知识点。大数据的4V特征明确为Volume(数据容量)、Velocity(处理速度)、Variety(数据多样性)、Value(数据价值),而Veracity(真实性)并非4V特征之一,因此正确答案为D。

2、在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Spark(内存计算引擎)

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于在多台服务器上分布式存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Spark是独立的快速计算引擎,不属于Hadoop核心组件。因此正确答案为A。

3、数据预处理的主要目的是?

A.直接生成最终分析结果

B.提高数据质量,以便后续分析和挖掘

C.降低数据存储成本

D.加速数据传输速度

【答案】:B

解析:本题考察大数据数据预处理的目的。数据预处理是对原始数据进行清洗、去重、缺失值处理、格式转换等操作,核心目的是去除噪声、填补缺陷、统一数据格式,从而提高数据质量,为后续分析和挖掘提供可靠基础。选项A(直接生成结果)过于绝对,预处理是基础步骤而非直接结果;选项C(降低存储成本)和D(加速传输)不是主要目的,因此正确答案为B。

4、大数据的“4V”特征中,指数据产生和处理的速度快的是哪个特征?

A.Volume(数据规模)

B.Velocity(数据速度)

C.Variety(数据多样性)

D.Value(数据价值密度)

【答案】:B

解析:本题考察大数据的核心特征知识点。大数据“4V”特征中,Velocity(速度)特指数据产生和处理的速度快,如实时数据流的处理需求;A选项Volume是指数据规模巨大;C选项Variety是指数据类型多样(结构化、半结构化、非结构化);D选项Value是指数据价值密度低(海量数据中有效信息占比小)。因此正确答案为B。

5、关于Spark与HadoopMapReduce相比的核心优势,以下描述正确的是?

A.基于内存计算,大幅提升数据处理速度

B.仅支持磁盘计算,适合超大规模批处理

C.仅适用于实时流处理场景,不支持批处理

D.完全依赖HDFS存储,无法独立运行

【答案】:A

解析:本题考察Spark的核心特性,正确答案为A。Spark的核心优势是基于内存计算,避免了MapReduce中大量的磁盘I/O操作,因此处理速度远快于MapReduce;B选项错误,Spark支持内存和磁盘混合计算,且速度更快;C选项错误,Spark既支持批处理也支持流处理;D选项错误,Spark可独立运行,也可与HDFS等存储系统结合,因此A为正确答案。

6、数据预处理阶段中,处理数据中存在的重复记录、缺失值和异常值等问题属于以下哪个操作?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据数据预处理的关键步骤。数据清洗是预处理的核心环节,主要处理数据质量问题,包括重复数据、缺失值、异常值、不一致数据等;数据集成是合并多源数据;数据转换是对数据格式、类型等进行转换;数据规约是通过降维、采样等方式减少数据规模。重复记录处理属于数据清洗的范畴,故正确答案为A。

7、Hadoop分布式文件系统(HDFS)的核心功能是?

A.实现海量数据的分布式存储

B.负责大规模数据的并行计算任务

C.管理集群资源分配与任务调度

D.对原始数据进行清洗与格式转换

【答案】:A

解析:本题考察Hadoop生态系统的核心组件功能。HDFS是Hadoop的分布式存储系统,核心功能是通过多节点协作实现海量数据的可靠存储;MapReduce负责并行计算(B错误),YARN负责资源管理(C错误),数据清洗与转换通常由Flume、Sqoop等工具完成(D错误)。因此正确答案为A。

8、在大数据预处理中,用于处理数据缺失值的常用方法是?

A.标准化

B.归一化

C.插值法

D.数据采集

【答案】:C

解析:本题考察大数据预处理技术。标准化和归一化属于数据转换(特征缩放)方法,用于统一数据量纲;数据采集是数据获取阶段操作;插值法

文档评论(0)

1亿VIP精品文档

相关文档