2026年国开电大大数据技术形考题库100道含答案【达标题】.docxVIP

下载本文档

1
0
约2.39万字
约 38页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道含答案【达标题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（Hadoop分布式文件系统）是Hadoop的分布式存储核心组件，专为存储海量数据设计；MapReduce是分布式计算框架，负责数据处理逻辑；YARN是资源管理器，协调集群计算资源分配；Hive是基于Hadoop的数据仓库工具，用于数据查询与分析。因此正确答案为A。

2、在大数据预处理中，当数据集中存在大量缺失值且数据类型为数值型时，最常用的处理方法是？

A.直接删除所有包含缺失值的样本

B.使用均值填充缺失值

C.使用众数填充缺失值

D.使用KNN算法进行缺失值预测

【答案】：B

解析：本题考察大数据数据预处理中缺失值处理的知识点。对于数值型数据，均值填充是最常用的缺失值处理方法（均值对整体趋势拟合较好）；众数填充主要适用于类别型数据；直接删除会丢失大量数据信息，降低数据完整性；KNN算法属于复杂的机器学习方法，在大数据预处理中较少作为基础缺失值处理手段。因此正确答案为B。

3、大数据的4V特征中，不包括以下哪一项？

A.数据量巨大（Volume）

B.处理速度快（Velocity）

C.数据类型多样（Variety）

D.数据价值密度高（Value）

【答案】：D

解析：本题考察大数据的4V特征知识点。大数据的4V特征为：Volume（数据量巨大）、Velocity（处理速度快）、Variety（数据类型多样）、Veracity（数据真实性/准确性）。其中“Value”并非4V标准特征，实际大数据中因数据量大导致价值密度通常较低，因此D选项“数据价值密度高”不属于4V特征。A、B、C均为4V的正确描述。

4、在大数据处理流程中，以下哪项不属于数据预处理阶段？

A.数据清洗

B.数据集成

C.数据存储

D.数据转换

【答案】：C

解析：本题考察大数据处理流程中数据预处理阶段知识点，数据预处理通常包括数据清洗（处理缺失值、异常值）、数据集成（合并多源数据）、数据转换（格式转换、标准化）等操作；而数据存储属于数据处理后的持久化环节，不属于预处理阶段，因此正确答案为C。

5、以下哪个大数据框架主要用于批处理计算？

A.SparkStreaming（实时流处理框架）

B.Storm（实时流处理框架）

C.Flink（实时流处理框架）

D.MapReduce（分布式批处理框架）

【答案】：D

解析：MapReduce是Hadoop的核心批处理计算框架，适用于离线大数据计算；SparkStreaming、Storm、Flink均支持实时流数据处理（SparkStreaming为微批处理，Storm/Flink为纯流处理）。因此正确答案为D。

6、在Hadoop生态系统中，负责存储海量数据的分布式文件系统是？

A.MapReduce（分布式计算框架）

B.HDFS（分布式文件系统）

C.YARN（资源管理器）

D.Spark（快速计算引擎）

【答案】：B

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，用于存储海量数据；A选项MapReduce是分布式计算框架，C选项YARN负责集群资源管理，D选项Spark是独立的快速计算引擎，均非分布式文件系统。

7、以下哪种算法属于大数据分析中的监督学习？

A.K-Means

B.线性回归

C.PCA

D.Apriori

【答案】：B

解析：本题考察大数据分析中的监督学习知识点。监督学习需要有标签的训练数据，线性回归通过已知特征与标签的映射关系进行预测，属于监督学习；K-Means是无监督聚类算法，PCA是无监督降维算法，Apriori是无监督关联规则挖掘算法。因此正确答案为B。

8、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.ZooKeeper（分布式协调服务）

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（Hadoop分布式文件系统）是Hadoop生态的基础，专为分布式存储海量数据设计；MapReduce是分布式计算框架，YARN负责资源管理与调度，ZooKeeper用于分布式协调，因此负责分布式存储的是HDFS，正确选项A。

2026年国开电大大数据技术形考题库100道含答案【达标题】.docxVIP

2026年国开电大大数据技术形考题库100道含答案【达标题】.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档