2026年国开电大大数据技术形考题库100道参考答案.docxVIP

下载本文档

0
0
约2.45万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道参考答案.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的是HDFS，正确答案为A。

2、以下关于数据仓库（DW）和数据湖（DataLake）的描述，正确的是？

A.数据仓库主要存储结构化数据，数据湖仅存储非结构化数据

B.数据仓库面向主题和历史数据，数据湖更注重原始数据的存储与管理

C.数据仓库更新频率高，数据湖更新频率低

D.数据仓库适合实时分析，数据湖适合批处理分析

【答案】：B

解析：本题考察数据仓库与数据湖的核心区别。数据仓库（DW）是面向主题、集成、时变、非易失的结构化数据集合，用于历史分析和决策支持；数据湖（DataLake）则支持存储结构化、半结构化、非结构化原始数据，强调数据多样性和灵活性，更注重原始数据的存储与管理。选项A错误，数据湖可存储结构化数据；选项C错误，数据湖因存储原始数据，更新频率通常更高；选项D错误，数据仓库适合批处理，数据湖可同时支持批处理和实时分析。

3、以下哪种数据类型不属于大数据中的非结构化数据？

A.文本文件

B.数据库表

C.图片文件

D.日志文件

【答案】：B

解析：本题考察大数据数据类型知识点。非结构化数据是指格式不固定、难以用二维表结构表示的数据，如文本、图片、视频、日志等。数据库表属于结构化数据，具有固定的字段和格式，因此不属于非结构化数据，正确答案为B。

4、以下哪个大数据框架主要用于批处理计算？

A.SparkStreaming（实时流处理框架）

B.Storm（实时流处理框架）

C.Flink（实时流处理框架）

D.MapReduce（分布式批处理框架）

【答案】：D

解析：MapReduce是Hadoop的核心批处理计算框架，适用于离线大数据计算；SparkStreaming、Storm、Flink均支持实时流数据处理（SparkStreaming为微批处理，Storm/Flink为纯流处理）。因此正确答案为D。

5、以下哪种算法属于聚类算法而非分类算法？

A.决策树（用于分类任务）

B.K-Means（无监督聚类算法）

C.逻辑回归（用于分类任务）

D.SVM（支持向量机，用于分类任务）

【答案】：B

解析：本题考察数据挖掘算法类型。分类算法（如决策树、逻辑回归、SVM）属于监督学习，需依赖标签数据预测类别；K-Means是无监督聚类算法，无需标签，通过距离度量将数据自动分组。因此正确答案为B。

6、大数据的核心特征（4V）不包括以下哪一项？

A.数据量巨大（Volume）

B.数据类型单一（Uniformity）

C.处理速度快（Velocity）

D.数据价值密度低（Value）

【答案】：B

解析：本题考察大数据的4V特征知识点。大数据的核心特征为Volume（数据量巨大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（价值密度低）。选项B中“数据类型单一”不符合4V特征，属于错误表述；其他选项均为4V特征的正确描述。

7、以下哪项属于数据挖掘的典型应用场景？

A.对原始数据进行去重清洗

B.通过聚类算法实现客户细分

C.从传感器实时采集数据

D.将数据转换为图表进行展示

【答案】：B

解析：本题考察数据挖掘的定义及应用。数据挖掘是从大量数据中通过算法发现潜在模式或知识的过程。B选项“通过聚类算法实现客户细分”属于数据挖掘（聚类分析）的典型应用，通过对客户特征数据分组，识别不同客户群体。A选项“数据清洗”属于数据预处理环节，C选项“数据采集”是数据获取阶段，D选项“数据可视化”是数据呈现手段，均不属于数据挖掘。因此正确答案为B。

8、Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态系统组件知识点。HDFS是Hadoop的分布式文件系统，专门负责海量数据的分布式存储；MapReduce是批处理计算框架，YARN负责集群资源管理与调度，Hive是数据仓库工具用于数据查询与分析，均不负责核心存储。

2026年国开电大大数据技术形考题库100道参考答案.docxVIP

2026年国开电大大数据技术形考题库100道参考答案.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档