2026年国开电大大数据技术形考题库100道附答案（巩固）.docxVIP

下载本文档

0
0
约2.51万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附答案（巩固）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中，负责分布式存储的核心组件是？

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】：B

解析：本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统中，HDFS（HadoopDistributedFileSystem）是分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的核心组件是HDFS，正确答案为B。

2、在大数据分析流程中，哪个步骤主要用于处理数据中的缺失值和异常值？

A.数据采集

B.数据清洗

C.数据挖掘

D.数据可视化

【答案】：B

解析：数据清洗是大数据分析的关键前置步骤，核心任务是处理原始数据中的噪声、缺失值、异常值、重复数据及格式不一致等问题，确保数据质量；数据采集是获取原始数据的过程，数据挖掘是从数据中提取模式，数据可视化是结果展示环节，故正确答案为B。

3、以下哪种数据库不属于大数据存储的典型技术？

A.HBase

B.MongoDB

C.MySQL

D.HDFS

【答案】：C

解析：本题考察大数据存储技术知识点。HBase（选项A）是基于HDFS的分布式NoSQL数据库，MongoDB（选项B）是文档型NoSQL数据库，均为大数据常用存储工具；HDFS（选项D）是Hadoop生态的分布式文件系统，用于存储海量数据。而MySQL（选项C）是传统关系型数据库，通常用于结构化数据的中小规模存储，不属于大数据典型存储技术。正确答案为C。

4、Spark与传统MapReduce相比，显著的性能优势主要得益于？

A.基于内存计算

B.使用磁盘存储数据

C.仅支持批处理任务

D.单节点并行计算

【答案】：A

解析：Spark采用内存计算模型，将中间数据存储在内存中，大幅减少磁盘IO操作，而MapReduce依赖磁盘读写中间结果，导致Spark处理速度更快；Spark支持内存+磁盘混合存储，并非仅用磁盘；Spark支持批处理、流处理等多种任务，且是分布式并行计算框架，非单节点。因此A正确。

5、在大数据数据挖掘中，以下哪种算法常用于将数据对象自动分组为具有相似特征的簇？

A.线性回归（LinearRegression）

B.K-Means聚类算法

C.决策树（DecisionTree）

D.Apriori关联规则算法

【答案】：B

解析：本题考察数据挖掘典型算法的应用场景知识点。K-Means是经典的聚类算法，核心是将数据对象按相似度自动分组为K个簇；线性回归用于预测连续值（回归分析）；决策树用于分类或回归任务（通过树结构划分特征）；Apriori用于挖掘关联规则（如“购买A的用户也常购买B”）。选项A、C、D均非聚类分组算法，因此正确答案为B。

6、大数据的5V特征中，描述数据产生和处理速度的是以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Variety（多样性）

D.Veracity（真实性）

【答案】：B

解析：本题考察大数据的5V核心特征知识点。大数据的5V特征包括Volume（容量，数据规模）、Velocity（速度，数据产生和处理的速度）、Variety（多样性，数据类型复杂）、Veracity（真实性，数据准确性）、Value（价值，数据蕴含的价值）。选项A是容量特征，选项C是多样性特征，选项D是真实性特征，均不符合题意，因此正确答案为B。

7、大数据的5V特征中，不包括以下哪一项？

A.Volume（数据容量）

B.Velocity（处理速度）

C.Viscosity（数据粘度）

D.Veracity（数据真实性）

【答案】：C

解析：本题考察大数据5V核心特征知识点，5V特征包括Volume（数据量规模）、Velocity（处理/生成速度）、Variety（数据多样性）、Value（数据价值密度）、Veracity（数据真实性）。Viscosity（粘度）并非大数据特征，属于干扰项，因此正确答案为C。

8、适用于实时分析用户行为数据流（如电商实时推荐）的大数据处理方式是？

A.批处理（BatchProcessing）

B.流处理（StreamProcessing）

C.分布式计算（DistributedComputing）

D.并行计算（ParallelComputing）

【答案】：B

解析：本题考察大数据处理技术类型的应用场景。批处理（A选项）适用于离线、批量数据处理（如T+1报表生成）；流处理（B选项）支持实时处理持续产生的数据流

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附答案（巩固）.docxVIP