2026年国开电大大数据技术概论形考题库100道及1套参考答案.docxVIP

  • 1
  • 0
  • 约2.46万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及1套参考答案.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、关于大数据的基本特点,以下描述正确的是?

A.大数据仅包含结构化数据(包含非结构化数据)

B.大数据的数据量必须超过100TB(无固定阈值)

C.大数据处理需满足低延迟要求(批处理框架延迟高)

D.大数据具有“4V”特征中的Velocity(处理速度)

【答案】:D

解析:本题考察大数据的核心特点。A错误,大数据包含结构化、半结构化、非结构化数据;B错误,大数据无固定数据量阈值,仅强调规模远超传统工具处理能力;C错误,批处理框架(如MapReduce)对实时性要求低,大数据的Velocity特征强调“处理速度”但不绝对要求低延迟;D正确,大数据“4V”特征包含Velocity(处理速度),因此正确答案为D。

2、大数据的5V特征中,‘Volume’指的是大数据的什么特性?

A.数据价值

B.处理速度

C.数据容量

D.数据多样性

【答案】:C

解析:本题考察大数据5V特征知识点。大数据5V特征包括:Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值)、Veracity(真实性)。选项A‘数据价值’对应‘Value’,选项B‘处理速度’对应‘Velocity’,选项D‘数据多样性’对应‘Variety’,因此‘Volume’指数据容量,正确答案为C。

3、以下哪一项不属于大数据的5V特征?

A.Volume

B.Velocity

C.Variability

D.Value

【答案】:C

解析:本题考察大数据5V特征知识点,大数据的5V特征包括Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值),选项C的Variability(变异性)并非5V特征之一,属于干扰项。

4、下列哪种计算框架更适合实时数据处理和迭代计算?

A.MapReduce

B.Spark

C.Hive

D.HBase

【答案】:B

解析:本题考察大数据计算框架的特点。MapReduce是基于磁盘的批处理框架,适合离线计算(A错);Spark是内存计算框架,支持迭代计算和实时流处理,性能远优于MapReduce(B对);Hive是数据仓库工具,用于SQL化查询分析(C错);HBase是NoSQL数据库,用于随机读写(D错)。

5、在大数据预处理流程中,“去除数据中的噪声、填补缺失值、处理重复记录”属于哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理的关键步骤。数据清洗的主要任务是处理数据质量问题,包括去除噪声、填补缺失值、处理异常值和重复记录。选项B“数据集成”是合并多源数据;选项C“数据转换”是对数据格式或属性进行标准化;选项D“数据规约”是通过降维或压缩减少数据量,均不符合题意。

6、在大数据预处理流程中,以下哪项操作不属于数据清洗的范畴?

A.去除重复记录与异常值

B.填补缺失的用户注册时间数据

C.对敏感数据(如身份证号)进行脱敏处理

D.对数据特征(如身高)进行标准化转换

【答案】:D

解析:本题考察数据预处理中‘数据清洗’与‘特征工程’的区别。数据清洗主要处理数据质量问题,包括去重(A)、填补缺失值(B)、脱敏(C,保护隐私属于数据清洗的辅助环节);而选项D的‘特征标准化’属于特征工程(数据转换),目的是统一特征尺度,不属于数据清洗阶段。因此正确答案为D。

7、以下哪一项不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(分布式计算引擎)

D.YARN(资源管理器)

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统核心包括HDFS(分布式存储)、MapReduce/YARN(分布式计算与资源管理);C选项Spark是独立的开源大数据计算框架,虽与Hadoop同属大数据技术栈,但不属于Hadoop生态系统的核心组件;A、B、D均为Hadoop生态的核心模块。因此正确答案为C。

8、以下哪种数据类型属于非结构化数据?

A.数据库表中的记录

B.文本文件

C.电子表格

D.关系型数据库数据

【答案】:B

解析:本题考察大数据数据类型知识点。结构化数据具有固定格式和明确字段定义,如数据库表记录、电子表格、关系型数据库数据(A、C、D均属于结构化数据);非结构化数据无固定格式,如文本文件、图片、音频等,因此选项B(文本文件)属于非结构化数据。

9、Hadoop生态系统中,哪个组件负责分布式文件存储,是大数据存储的核心基础?

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档