2026年国开电大大数据技术形考题库100道带答案（综合题）.docxVIP

下载本文档

0
0
约2.43万字
约 39页
2026-03-09 发布于四川
举报

2026年国开电大大数据技术形考题库100道带答案（综合题）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、K-Means算法在数据挖掘中属于以下哪种类型？

A.分类算法

B.聚类算法

C.关联规则挖掘算法

D.回归算法

【答案】：B

解析：本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法，通过最小化簇内距离将数据自动划分为不同簇（Cluster）；A选项分类算法（如决策树、SVM）需标注训练数据类别，属于监督学习；C选项关联规则挖掘（如Apriori）用于发现数据项间的关联关系；D选项回归算法（如线性回归）用于预测连续数值。因此正确答案为B。

2、在大数据处理的预处理阶段，以下哪个操作主要用于处理数据中的缺失值和异常值？

A.数据清洗

B.数据集成

C.数据转换

D.数据可视化

【答案】：A

解析：本题考察数据预处理操作知识点。数据清洗是预处理的关键步骤，主要用于处理数据中的缺失值（如空值）、异常值（如离群点）、重复值等问题，确保数据质量。数据集成是合并多源数据，数据转换是对数据进行标准化、归一化等格式转换，数据可视化是结果展示，不属于预处理操作。

3、下列算法中，常用于大数据分类任务的是？

A.K-Means聚类算法

B.Apriori关联规则算法

C.支持向量机（SVM）

D.PCA主成分分析算法

【答案】：C

解析：本题考察数据挖掘算法类型知识点。支持向量机（SVM）是典型的有监督分类算法；K-Means是无监督聚类算法，Apriori用于关联规则挖掘（无监督），PCA用于降维（特征工程），因此答案为C。

4、大数据的“4V”特征不包括以下哪一项？

A.Volume（规模）

B.Velocity（速度）

C.Value（价值）

D.Validity（有效性）

【答案】：D

解析：大数据的核心特征通常总结为“4V”，即Volume（数据量巨大）、Velocity（数据产生和处理速度快）、Variety（数据类型多样，含结构化、半结构化、非结构化数据）、Value（蕴含高价值但需挖掘）。选项D的“Validity（有效性）”并非大数据4V特征之一，因此正确答案为D。

5、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.HDFS（HadoopDistributedFileSystem）

B.MapReduce

C.YARN

D.Pig

【答案】：A

解析：本题考察Hadoop生态系统的核心组件功能，正确答案为A。HDFS（Hadoop分布式文件系统）是Hadoop的核心组件之一，专门用于在集群中分布式存储海量数据。B选项MapReduce是Hadoop的分布式计算框架，负责数据处理而非存储；C选项YARN是Hadoop的资源管理器，负责集群资源调度；D选项Pig是基于Hadoop的高级查询语言，用于数据处理而非存储。

6、下列哪种工具属于大数据可视化工具？

A.MySQL（关系型数据库管理系统）

B.ApacheHBase（分布式数据库）

C.Tableau（交互式可视化平台）

D.Pig（高级查询语言）

【答案】：C

解析：本题考察大数据工具类型。Tableau是专业的交互式数据可视化工具，用于生成图表、仪表盘等；A、B属于数据存储工具，D是Hadoop生态中的查询语言，因此正确答案为C。

7、以下哪项不属于大数据的基本特征？

A.Volume

B.Velocity

C.Value

D.Variability

【答案】：D

解析：大数据的基本特征通常概括为4V：Volume（数据量大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（价值密度低）。而Variability（变异性）并非大数据的核心定义特征，因此D选项错误。

8、相比MapReduce，Spark的主要计算优势是？

A.基于内存计算，处理速度更快

B.仅支持批处理任务（不支持流处理）

C.不支持复杂SQL查询（仅支持简单计算）

D.必须依赖HDFS作为唯一存储系统

【答案】：A

解析：本题考察Spark与MapReduce的核心差异。Spark采用内存计算模式，避免MapReduce的磁盘IO瓶颈，处理速度更快；Spark支持批处理、流处理（SparkStreaming）和交互式查询；Spark可使用多种存储系统（如HDFS、Cassandra等），并非必须依赖HDFS。因此正确答案为A。

9、以下哪种算法常用于聚类分析？

A.决策树（分类算法）

B.K-Means（聚类算法）

C.线性回归（回归算法）

D.支持向量机（SVM，分类算法）

【答案】：B

解析：本题考察数据挖掘算法的应用场景。聚类分析的目标是将数据对象分组

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道带答案（综合题）.docxVIP