2026年国开电大大数据技术形考题库100道（综合题）.docxVIP

下载本文档

0
0
约2.44万字
约 38页
2026-03-09 发布于四川
举报

2026年国开电大大数据技术形考题库100道（综合题）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中负责分布式文件存储的核心组件是？

A.MapReduce（分布式计算框架）

B.YARN（资源管理器）

C.HDFS（分布式文件系统）

D.Hive（数据仓库工具）

【答案】：C

解析：本题考察Hadoop核心组件知识点。HDFS是Hadoop的分布式文件系统，负责海量数据的分布式存储；MapReduce是分布式计算框架，YARN负责集群资源管理与任务调度，Hive是基于Hadoop的数据仓库工具（非核心存储组件）。

2、在大数据预处理流程中，‘去除重复数据’属于以下哪个环节？

A.数据采集

B.数据清洗

C.数据集成

D.数据转换

【答案】：B

解析：本题考察大数据预处理环节知识点。数据清洗是对原始数据进行质量修复的过程，主要处理缺失值、异常值、重复值等问题；数据采集是获取数据的过程，数据集成是合并多源数据，数据转换是对数据格式进行标准化处理。去除重复数据属于数据清洗环节，正确答案为B。

3、以下哪种属于大数据分析中常用的无监督学习算法？

A.线性回归

B.K-means聚类

C.决策树分类

D.贝叶斯分类

【答案】：B

解析：本题考察大数据分析算法知识点。K-means聚类是典型的无监督学习算法，用于将数据自动分组（簇），无需预先标记；线性回归、决策树分类、贝叶斯分类均属于监督学习算法，需要有标注的训练数据。因此正确答案为B。

4、在大数据数据预处理阶段，处理缺失值、异常值等数据质量问题的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】：A

解析：本题考察数据预处理步骤知识点。数据清洗主要用于处理数据中的缺失值、异常值、重复值等质量问题；数据集成是合并多源数据，数据转换是统一数据格式，数据归约是减少数据规模，均与处理缺失值无关，故正确答案为A。

5、在机器学习中，用于预测类别标签（如“垃圾邮件/非垃圾邮件”）的算法是？

A.逻辑回归（LogisticRegression）

B.线性回归（LinearRegression）

C.K-means聚类算法

D.PCA（主成分分析）降维算法

【答案】：A

解析：本题考察机器学习算法类型知识点。逻辑回归是典型的分类算法，用于预测离散类别；线性回归是回归算法（预测连续值）；K-means是无监督聚类算法（无标签数据分组）；PCA是无监督降维算法（减少特征维度），均不用于分类任务。

6、适用于实时分析用户行为数据流（如电商实时推荐）的大数据处理方式是？

A.批处理（BatchProcessing）

B.流处理（StreamProcessing）

C.分布式计算（DistributedComputing）

D.并行计算（ParallelComputing）

【答案】：B

解析：本题考察大数据处理技术类型的应用场景。批处理（A选项）适用于离线、批量数据处理（如T+1报表生成）；流处理（B选项）支持实时处理持续产生的数据流，能满足实时分析需求；分布式计算（C选项）和并行计算（D选项）是计算模式，而非专门针对实时流数据的处理方式。因此实时用户行为分析应采用流处理。

7、Spark作为大数据处理框架，相比HadoopMapReduce的核心优势是？

A.基于内存计算，处理速度更快

B.仅支持结构化数据处理

C.只能进行离线批处理

D.必须运行在分布式文件系统HDFS上

【答案】：A

解析：本题考察Spark与HadoopMapReduce的技术差异。Spark的核心优势是基于内存计算，避免了HadoopMapReduce的磁盘IO瓶颈，因此处理速度更快（尤其适合迭代计算和实时分析）。B选项错误，Spark支持结构化、半结构化（如JSON）、非结构化（如文本）等多种数据类型；C选项错误，Spark不仅支持批处理，还支持SparkStreaming实时计算；D选项错误，Spark可运行在本地、YARN、Kubernetes等多种环境，不依赖HDFS。

8、Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS（分布式文件系统）

B.MapReduce（计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责海量数据的分布式存储；MapReduce是分布式计算框架，YARN负责集群资源管理，Hive提供数据仓库查询接口。因此正确答案为A。

2026年国开电大大数据技术形考题库100道（综合题）.docxVIP

2026年国开电大大数据技术形考题库100道（综合题）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档