2026年国开电大大数据技术形考题库100道附完整答案（必刷）.docxVIP

下载本文档

0
0
约2.46万字
约 39页
2026-03-10 发布于河南
举报

2026年国开电大大数据技术形考题库100道附完整答案（必刷）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的5V特征中，描述数据价值密度低的特征是以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Variety（多样性）

D.Value（价值密度高）

【答案】：D

解析：本题考察大数据的5V特征知识点。大数据的5V特征包括Volume（数据量大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（价值密度低）、Veracity（数据真实性）。选项D中“价值密度高”与大数据实际特征不符，大数据中大部分数据原始价值密度低，需通过挖掘分析提升价值，因此正确答案为D。

2、在大数据预处理流程中，‘处理数据中存在的重复记录’属于以下哪种操作？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理的核心操作。数据预处理流程包括数据清洗、集成、转换、规约等环节：数据清洗（选项A）的目标是去除噪声、异常值、重复值等，因此“处理重复记录”属于数据清洗；数据集成（B）是合并多源数据；数据转换（C）是对数据格式/结构进行转换（如标准化）；数据规约（D）是通过降维、采样等减小数据规模。因此“处理重复记录”属于数据清洗操作。

3、下列算法中，属于分类算法的是？

A.K-Means（聚类算法）

B.Apriori（关联规则挖掘算法）

C.决策树（分类/回归算法）

D.PCA（主成分分析算法）

【答案】：C

解析：本题考察数据挖掘算法类型知识点。决策树（C选项）是典型的分类算法，可用于预测类别标签；K-Means（A选项）是无监督聚类算法，用于数据分组；Apriori（B选项）是关联规则挖掘算法，用于发现数据项之间的关联关系；PCA（D选项）是降维算法，用于减少特征维度。因此正确答案为C。

4、Hadoop分布式文件系统（HDFS）的主要作用是？

A.负责大数据的并行计算任务调度

B.存储海量的结构化和非结构化数据

C.管理集群的资源分配与作业调度

D.提供机器学习算法的实现接口

【答案】：B

解析：本题考察Hadoop生态系统核心组件功能。HDFS是分布式存储系统，核心作用是存储海量数据。选项A（并行计算）属于MapReduce或Spark的功能；选项C（资源调度）是YARN的职责；选项D（机器学习接口）非HDFS设计目标，因此正确答案为B。

5、在Hadoop生态系统中，负责分布式存储海量数据的组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统，核心作用是分布式存储海量数据；选项B的MapReduce是分布式计算框架，用于并行处理大数据任务；选项C的YARN负责集群资源管理和调度；选项D的Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。因此，负责存储的组件是HDFS，正确答案为A。

6、K-Means算法在数据挖掘中属于以下哪种类型？

A.分类算法

B.聚类算法

C.关联规则挖掘算法

D.回归算法

【答案】：B

解析：本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法，通过最小化簇内距离将数据自动划分为不同簇（Cluster）；A选项分类算法（如决策树、SVM）需标注训练数据类别，属于监督学习；C选项关联规则挖掘（如Apriori）用于发现数据项间的关联关系；D选项回归算法（如线性回归）用于预测连续数值。因此正确答案为B。

7、在MapReduce编程模型中，哪个阶段负责对Map阶段输出的中间结果进行聚合，生成最终计算结果？

A.Map阶段

B.Reduce阶段

C.Shuffle阶段

D.Split阶段

【答案】：B

解析：本题考察MapReduce编程模型知识点。MapReduce采用“分而治之”思想，分为Map、Shuffle、Reduce三个主要阶段。Map阶段（A）负责将输入数据拆分为键值对，进行初步映射处理；Shuffle阶段（C）负责将Map输出的中间结果按Key分发到对应的Reduce节点；Reduce阶段（B）接收Shuffle后的中间结果，对相同Key的Value进行聚合计算，生成最终结果。Split阶段（D）是数据分片，属于底层准备工作。因此答案为B。

8、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.HDFS（HadoopDistributedFileSystem）

B.MapReduce

C.YARN

D.Pig

【答案

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附完整答案（必刷）.docxVIP