2026年国开电大大数据技术概论形考题库100道含答案（培优）.docxVIP

下载本文档

1
0
约2.47万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道含答案（培优）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的4V特征？

A.Volume

B.Velocity

C.Variety

D.Veracity

【答案】：D

解析：大数据的4V特征通常指Volume（数据量大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（数据价值密度低但挖掘后价值高）。Veracity（数据真实性）不属于标准4V特征，属于干扰项，因此正确答案为D。

2、Hadoop生态系统中，哪个组件负责分布式文件存储？

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】：B

解析：本题考察Hadoop生态系统组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，用于在集群中存储海量数据；A选项MapReduce是分布式计算框架，负责并行任务处理；C选项YARN是资源管理器，负责集群资源调度；D选项Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。因此正确答案为B。

3、ApacheSpark相比HadoopMapReduce的主要优势体现在？

A.处理速度更快（内存计算为主）

B.仅支持批处理任务（无法流处理）

C.不支持内存计算（依赖磁盘IO）

D.只能处理结构化数据（不支持非结构化）

【答案】：A

解析：本题考察Spark与MapReduce的技术差异。正确答案为A，Spark以内存计算为核心，将中间结果保存在内存中，避免MapReduce依赖的磁盘IO，因此迭代计算速度远快于MapReduce。B选项错误，Spark支持批处理（SparkSQL）和流处理（StructuredStreaming）；C选项错误，Spark核心是内存计算框架；D选项错误，Spark支持结构化、半结构化（JSON）和非结构化（文本、图像）数据处理。因此A是Spark的核心优势。

4、以下哪项是Hadoop分布式文件系统（HDFS）的核心功能？

A.提供分布式并行计算能力

B.存储海量数据并通过副本机制提供高容错性

C.实时处理流数据（如SparkStreaming）

D.执行机器学习算法（如Mahout）

【答案】：B

解析：HDFS是分布式文件系统，核心功能是存储海量数据并通过多副本机制实现高容错性；A是MapReduce的功能，C属于流处理框架特性，D属于数据挖掘工具功能，均非HDFS核心功能。

5、大数据的“4V”特征中，指数据产生和处理的速度快的是哪个特征？

A.Volume（数据规模）

B.Velocity（数据速度）

C.Variety（数据多样性）

D.Value（数据价值密度）

【答案】：B

解析：本题考察大数据的核心特征知识点。大数据“4V”特征中，Velocity（速度）特指数据产生和处理的速度快，如实时数据流的处理需求；A选项Volume是指数据规模巨大；C选项Variety是指数据类型多样（结构化、半结构化、非结构化）；D选项Value是指数据价值密度低（海量数据中有效信息占比小）。因此正确答案为B。

6、相比Hadoop的MapReduce，ApacheSpark的显著技术优势是？

A.仅支持批处理任务，不支持流处理

B.基于内存计算，计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行，无法独立部署

【答案】：B

解析：本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算，避免了MapReduce多次磁盘IO操作，大幅提升计算速度；A错误，Spark同时支持批处理和流处理（如StructuredStreaming）；C错误，Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习；D错误，Spark可独立部署，也可与Hadoop生态集成。因此正确答案为B。

7、大数据预处理阶段中，处理数据缺失值时，直接删除包含缺失值的样本属于哪种方法？

A.均值插补法

B.删除法

C.中位数插补法

D.众数插补法

【答案】：B

解析：本题考察数据预处理方法知识点。缺失值处理方法包括：删除法（直接删除含缺失值的样本，可能导致数据量减少）、插补法（用均值、中位数、众数等填充缺失值）。选项A、C、D均属于插补法，因此正确答案为B。

8、在大数据预处理流程中，“去除数据中的噪声、填补缺失值、处理重复记录”属于哪个步骤？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理的关键步骤。数据清洗的主要任务是处理数据质量问题，包括去除噪声、填补缺失值、

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道含答案（培优）.docxVIP