2026年国开电大大数据技术形考题库100道附参考答案【巩固】.docxVIP

下载本文档

0
0
约2.48万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附参考答案【巩固】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.MapReduce（计算框架）

B.YARN（资源管理器）

C.HDFS（分布式文件系统）

D.Hive（数据仓库工具）

【答案】：C

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（分布式文件系统）是Hadoop的核心存储组件，负责将海量数据分布存储在多台服务器上；MapReduce是分布式计算框架，负责并行处理数据；YARN是资源管理器，负责集群资源调度；Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。选项A、B、D均非Hadoop的分布式存储组件，因此正确答案为C。

2、下列算法中，属于分类算法的是？

A.K-Means（聚类算法）

B.Apriori（关联规则挖掘算法）

C.决策树（分类/回归算法）

D.PCA（主成分分析算法）

【答案】：C

解析：本题考察数据挖掘算法类型知识点。决策树（C选项）是典型的分类算法，可用于预测类别标签；K-Means（A选项）是无监督聚类算法，用于数据分组；Apriori（B选项）是关联规则挖掘算法，用于发现数据项之间的关联关系；PCA（D选项）是降维算法，用于减少特征维度。因此正确答案为C。

3、在大数据预处理流程中，‘处理数据中存在的重复记录’属于以下哪种操作？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理的核心操作。数据预处理流程包括数据清洗、集成、转换、规约等环节：数据清洗（选项A）的目标是去除噪声、异常值、重复值等，因此“处理重复记录”属于数据清洗；数据集成（B）是合并多源数据；数据转换（C）是对数据格式/结构进行转换（如标准化）；数据规约（D）是通过降维、采样等减小数据规模。因此“处理重复记录”属于数据清洗操作。

4、在大数据处理的预处理阶段，以下哪个操作主要用于处理数据中的缺失值和异常值？

A.数据清洗

B.数据集成

C.数据转换

D.数据可视化

【答案】：A

解析：本题考察数据预处理操作知识点。数据清洗是预处理的关键步骤，主要用于处理数据中的缺失值（如空值）、异常值（如离群点）、重复值等问题，确保数据质量。数据集成是合并多源数据，数据转换是对数据进行标准化、归一化等格式转换，数据可视化是结果展示，不属于预处理操作。

5、以下哪项不属于大数据的4V特征？

A.Volume（数据量）

B.Velocity（数据速度）

C.Variance（方差）

D.Value（数据价值）

【答案】：C

解析：大数据的4V特征标准定义为Volume（数据量）、Velocity（数据产生速度）、Variety（数据多样性）、Value（数据价值）。选项C的Variance（方差）是统计学概念，不属于大数据4V特征；其他选项均为4V核心特征，因此正确答案为C。

6、数据预处理过程中，以下哪一步骤主要用于处理数据中的缺失值、异常值和重复记录？

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】：A

解析：本题考察数据预处理的核心步骤知识点。数据清洗是数据预处理的关键环节，主要任务包括处理缺失值（如填充或删除）、异常值（识别并修正）和重复记录（去重）；数据集成是合并多源数据；数据转换是将数据转换为适合分析的格式（如标准化、归一化）；数据归约是通过降维或特征选择减少数据规模。选项B、C、D均非处理缺失值、异常值的步骤，因此正确答案为A。

7、以下哪种计算模式适用于实时处理高并发的数据流场景？

A.批处理（BatchProcessing）

B.流处理（StreamProcessing）

C.离线计算（OfflineComputing）

D.交互式计算（InteractiveComputing）

【答案】：B

解析：本题考察大数据计算模式的应用场景。流处理（StreamProcessing）专为实时处理持续高并发数据流设计（如Flink、SparkStreaming）。选项A（批处理）适用于历史数据批量分析；选项C（离线计算）与“实时”需求矛盾；选项D（交互式计算）侧重用户实时查询而非流处理，因此正确答案为B。

8、Hadoop生态系统中，负责分布式文件存储的核心组件是？

A.HDFS

B.YARN

C.MapReduce

D.Spark

【答案】：A

解析：本题考察Hadoop核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，专门用于大规模数据的分布式存储；YARN是资源管理器，MapReduce是批处理计算框架

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附参考答案【巩固】.docxVIP