2026年国开电大大数据技术形考题库100道参考答案.docxVIP

  • 0
  • 0
  • 约2.45万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道参考答案.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的是HDFS,正确答案为A。

2、以下关于数据仓库(DW)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向主题和历史数据,数据湖更注重原始数据的存储与管理

C.数据仓库更新频率高,数据湖更新频率低

D.数据仓库适合实时分析,数据湖适合批处理分析

【答案】:B

解析:本题考察数据仓库与数据湖的核心区别。数据仓库(DW)是面向主题、集成、时变、非易失的结构化数据集合,用于历史分析和决策支持;数据湖(DataLake)则支持存储结构化、半结构化、非结构化原始数据,强调数据多样性和灵活性,更注重原始数据的存储与管理。选项A错误,数据湖可存储结构化数据;选项C错误,数据湖因存储原始数据,更新频率通常更高;选项D错误,数据仓库适合批处理,数据湖可同时支持批处理和实时分析。

3、以下哪种数据类型不属于大数据中的非结构化数据?

A.文本文件

B.数据库表

C.图片文件

D.日志文件

【答案】:B

解析:本题考察大数据数据类型知识点。非结构化数据是指格式不固定、难以用二维表结构表示的数据,如文本、图片、视频、日志等。数据库表属于结构化数据,具有固定的字段和格式,因此不属于非结构化数据,正确答案为B。

4、以下哪个大数据框架主要用于批处理计算?

A.SparkStreaming(实时流处理框架)

B.Storm(实时流处理框架)

C.Flink(实时流处理框架)

D.MapReduce(分布式批处理框架)

【答案】:D

解析:MapReduce是Hadoop的核心批处理计算框架,适用于离线大数据计算;SparkStreaming、Storm、Flink均支持实时流数据处理(SparkStreaming为微批处理,Storm/Flink为纯流处理)。因此正确答案为D。

5、以下哪种算法属于聚类算法而非分类算法?

A.决策树(用于分类任务)

B.K-Means(无监督聚类算法)

C.逻辑回归(用于分类任务)

D.SVM(支持向量机,用于分类任务)

【答案】:B

解析:本题考察数据挖掘算法类型。分类算法(如决策树、逻辑回归、SVM)属于监督学习,需依赖标签数据预测类别;K-Means是无监督聚类算法,无需标签,通过距离度量将数据自动分组。因此正确答案为B。

6、大数据的核心特征(4V)不包括以下哪一项?

A.数据量巨大(Volume)

B.数据类型单一(Uniformity)

C.处理速度快(Velocity)

D.数据价值密度低(Value)

【答案】:B

解析:本题考察大数据的4V特征知识点。大数据的核心特征为Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(价值密度低)。选项B中“数据类型单一”不符合4V特征,属于错误表述;其他选项均为4V特征的正确描述。

7、以下哪项属于数据挖掘的典型应用场景?

A.对原始数据进行去重清洗

B.通过聚类算法实现客户细分

C.从传感器实时采集数据

D.将数据转换为图表进行展示

【答案】:B

解析:本题考察数据挖掘的定义及应用。数据挖掘是从大量数据中通过算法发现潜在模式或知识的过程。B选项“通过聚类算法实现客户细分”属于数据挖掘(聚类分析)的典型应用,通过对客户特征数据分组,识别不同客户群体。A选项“数据清洗”属于数据预处理环节,C选项“数据采集”是数据获取阶段,D选项“数据可视化”是数据呈现手段,均不属于数据挖掘。因此正确答案为B。

8、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS是Hadoop的分布式文件系统,专门负责海量数据的分布式存储;MapReduce是批处理计算框架,YARN负责集群资源管理与调度,Hive是数据仓库工具用于数据查询与分析,均不负责核心存储。

9、

文档评论(0)

1亿VIP精品文档

相关文档