2026年国开电大大数据技术形考题库100道及完整答案【精选题】.docxVIP

下载本文档

1
0
约2.47万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道及完整答案【精选题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的4V特征中，不包含以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Veracity（真实性）

D.Variety（多样性）

【答案】：C

解析：本题考察大数据核心特征知识点。大数据的4V特征明确为Volume（容量）、Velocity（速度）、Variety（多样性）、Value（价值），而Veracity（真实性）不属于4V特征范畴，属于干扰项。其他选项均为4V特征的组成部分。

2、Hadoop生态系统中负责分布式计算任务调度和资源管理的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：C

解析：本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统包含多个组件：A选项HDFS是分布式文件系统，用于存储海量数据；B选项MapReduce是分布式计算框架，实现并行计算；C选项YARN（YetAnotherResourceNegotiator）是资源管理器，负责集群资源的分配和调度，协调MapReduce等计算任务的执行；D选项Hive是基于Hadoop的数据仓库工具，提供类SQL查询语言。因此正确答案为C。

3、数据预处理阶段中，用于处理数据缺失值、异常值和重复数据的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察数据预处理步骤知识点。数据清洗的核心作用是处理数据中的质量问题，包括缺失值填充、异常值修正、重复数据删除等；B选项数据集成是合并多个数据源，C选项数据转换是对数据格式或尺度进行标准化处理，D选项数据规约是通过降维或采样减少数据规模。因此正确答案为A。

4、在大数据预处理中，当数据集中存在大量缺失值且数据类型为数值型时，最常用的处理方法是？

A.直接删除所有包含缺失值的样本

B.使用均值填充缺失值

C.使用众数填充缺失值

D.使用KNN算法进行缺失值预测

【答案】：B

解析：本题考察大数据数据预处理中缺失值处理的知识点。对于数值型数据，均值填充是最常用的缺失值处理方法（均值对整体趋势拟合较好）；众数填充主要适用于类别型数据；直接删除会丢失大量数据信息，降低数据完整性；KNN算法属于复杂的机器学习方法，在大数据预处理中较少作为基础缺失值处理手段。因此正确答案为B。

5、在数据预处理流程中，用于处理数据中的缺失值、异常值和重复数据的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察数据预处理步骤知识点。数据预处理包括多个关键步骤：A选项数据清洗主要用于处理数据中的质量问题，如缺失值填充、异常值处理、重复数据删除等，确保数据的准确性和一致性；B选项数据集成是将多个数据源的数据合并到一个统一的数据存储中；C选项数据转换是对数据进行格式转换、标准化或归一化等操作；D选项数据规约是通过降维或特征选择减少数据维度，提高处理效率。因此正确答案为A。

6、Spark作为大数据处理框架，其相比HadoopMapReduce的显著优势在于？

A.支持内存计算，处理速度更快

B.仅适用于批处理任务

C.只能运行在HDFS之上

D.不支持实时数据处理

【答案】：A

解析：本题考察Spark与MapReduce的对比知识点。Spark的核心优势是支持内存计算，减少磁盘IO，因此处理速度远快于基于磁盘的MapReduce；选项B错误，Spark既支持批处理也支持流处理（SparkStreaming）；选项C错误，Spark可运行在多种存储系统（如HDFS、S3、Cassandra等）；选项D错误，SparkStreaming支持实时数据处理。

7、Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper

【答案】：A

解析：本题考察Hadoop核心组件知识点。HDFS（Hadoop分布式文件系统）是Hadoop生态中负责数据分布式存储的核心组件；MapReduce是分布式计算框架，YARN是资源管理器，ZooKeeper是分布式协调服务，均不符合题意，故正确答案为A。

8、下列哪项是大数据的特征之一，指数据产生和处理的速度极快？

A.Volume（数据量巨大）

B.Velocity（数据产生与处理速度快）

C.Variety（数据类型多样）

D.Value（数据价值密度高）

【答案】：B

解析：本题考察大数据的5V特征。A选项Volume指数据规模庞大，强调数据总量；B选项Velocity特指数据产生和处理的速度极快，符合题干描述；C选项

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道及完整答案【精选题】.docxVIP