2026年国开电大大数据技术概论形考题库100道及1套参考答案.docxVIP

下载本文档

1
0
约2.46万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道及1套参考答案.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、关于大数据的基本特点，以下描述正确的是？

A.大数据仅包含结构化数据（包含非结构化数据）

B.大数据的数据量必须超过100TB（无固定阈值）

C.大数据处理需满足低延迟要求（批处理框架延迟高）

D.大数据具有“4V”特征中的Velocity（处理速度）

【答案】：D

解析：本题考察大数据的核心特点。A错误，大数据包含结构化、半结构化、非结构化数据；B错误，大数据无固定数据量阈值，仅强调规模远超传统工具处理能力；C错误，批处理框架（如MapReduce）对实时性要求低，大数据的Velocity特征强调“处理速度”但不绝对要求低延迟；D正确，大数据“4V”特征包含Velocity（处理速度），因此正确答案为D。

2、大数据的5V特征中，‘Volume’指的是大数据的什么特性？

A.数据价值

B.处理速度

C.数据容量

D.数据多样性

【答案】：C

解析：本题考察大数据5V特征知识点。大数据5V特征包括：Volume（容量）、Velocity（速度）、Variety（多样性）、Value（价值）、Veracity（真实性）。选项A‘数据价值’对应‘Value’，选项B‘处理速度’对应‘Velocity’，选项D‘数据多样性’对应‘Variety’，因此‘Volume’指数据容量，正确答案为C。

3、以下哪一项不属于大数据的5V特征？

A.Volume

B.Velocity

C.Variability

D.Value

【答案】：C

解析：本题考察大数据5V特征知识点，大数据的5V特征包括Volume（规模）、Velocity（速度）、Variety（多样性）、Veracity（真实性）、Value（价值），选项C的Variability（变异性）并非5V特征之一，属于干扰项。

4、下列哪种计算框架更适合实时数据处理和迭代计算？

A.MapReduce

B.Spark

C.Hive

D.HBase

【答案】：B

解析：本题考察大数据计算框架的特点。MapReduce是基于磁盘的批处理框架，适合离线计算（A错）；Spark是内存计算框架，支持迭代计算和实时流处理，性能远优于MapReduce（B对）；Hive是数据仓库工具，用于SQL化查询分析（C错）；HBase是NoSQL数据库，用于随机读写（D错）。

5、在大数据预处理流程中，“去除数据中的噪声、填补缺失值、处理重复记录”属于哪个步骤？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理的关键步骤。数据清洗的主要任务是处理数据质量问题，包括去除噪声、填补缺失值、处理异常值和重复记录。选项B“数据集成”是合并多源数据；选项C“数据转换”是对数据格式或属性进行标准化；选项D“数据规约”是通过降维或压缩减少数据量，均不符合题意。

6、在大数据预处理流程中，以下哪项操作不属于数据清洗的范畴？

A.去除重复记录与异常值

B.填补缺失的用户注册时间数据

C.对敏感数据（如身份证号）进行脱敏处理

D.对数据特征（如身高）进行标准化转换

【答案】：D

解析：本题考察数据预处理中‘数据清洗’与‘特征工程’的区别。数据清洗主要处理数据质量问题，包括去重（A）、填补缺失值（B）、脱敏（C，保护隐私属于数据清洗的辅助环节）；而选项D的‘特征标准化’属于特征工程（数据转换），目的是统一特征尺度，不属于数据清洗阶段。因此正确答案为D。

7、以下哪一项不属于Hadoop生态系统的核心组件？

A.HDFS（分布式文件系统）

B.MapReduce（分布式计算框架）

C.Spark（分布式计算引擎）

D.YARN（资源管理器）

【答案】：C

解析：本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统核心包括HDFS（分布式存储）、MapReduce/YARN（分布式计算与资源管理）；C选项Spark是独立的开源大数据计算框架，虽与Hadoop同属大数据技术栈，但不属于Hadoop生态系统的核心组件；A、B、D均为Hadoop生态的核心模块。因此正确答案为C。

8、以下哪种数据类型属于非结构化数据？

A.数据库表中的记录

B.文本文件

C.电子表格

D.关系型数据库数据

【答案】：B

解析：本题考察大数据数据类型知识点。结构化数据具有固定格式和明确字段定义，如数据库表记录、电子表格、关系型数据库数据（A、C、D均属于结构化数据）；非结构化数据无固定格式，如文本文件、图片、音频等，因此选项B（文本文件）属于非结构化数据。

9、Hadoop生态系统中，哪个组件负责分布式文件存储，是大数据存储的核心基础？

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道及1套参考答案.docxVIP