2026年国开电大大数据技术形考题库100道及答案【真题汇编】.docxVIP

  • 0
  • 0
  • 约2.41万字
  • 约 38页
  • 2026-03-10 发布于四川
  • 举报

2026年国开电大大数据技术形考题库100道及答案【真题汇编】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为海量数据存储设计,是大数据存储的核心组件;MapReduce是分布式计算框架,YARN是资源管理器,Hive是数据仓库工具,均不负责存储功能。因此A正确。

2、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,主要负责海量数据的分布式存储;B选项MapReduce是分布式计算框架,C选项YARN是资源管理器,D选项Hive是基于Hadoop的数据仓库工具,均不负责分布式存储。因此正确答案为A。

3、K-Means算法在数据挖掘中属于以下哪种类型?

A.分类算法

B.聚类算法

C.关联规则挖掘算法

D.回归算法

【答案】:B

解析:本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法,通过最小化簇内距离将数据自动划分为不同簇(Cluster);A选项分类算法(如决策树、SVM)需标注训练数据类别,属于监督学习;C选项关联规则挖掘(如Apriori)用于发现数据项间的关联关系;D选项回归算法(如线性回归)用于预测连续数值。因此正确答案为B。

4、在大数据处理流程中,对数据进行清洗、去重、填补缺失值等操作属于以下哪个环节?

A.数据预处理

B.数据挖掘

C.模型训练

D.结果可视化

【答案】:A

解析:本题考察大数据处理流程各环节定义。数据预处理是大数据处理的前期关键步骤,包含数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换)等操作;数据挖掘是从数据中提取模式,模型训练和结果可视化属于后续环节。因此正确答案为A。

5、大数据的5V特征中,不包括以下哪一项?

A.Volume

B.Velocity

C.Variety

D.Validity

【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据容量)、Velocity(数据产生速度)、Variety(数据多样性)、Veracity(数据真实性)、Value(数据价值)。选项D的Validity(有效性)并非大数据5V特征之一,因此正确答案为D。

6、下列算法中,常用于大数据分类任务的是?

A.K-Means聚类算法

B.Apriori关联规则算法

C.支持向量机(SVM)

D.PCA主成分分析算法

【答案】:C

解析:本题考察数据挖掘算法类型知识点。支持向量机(SVM)是典型的有监督分类算法;K-Means是无监督聚类算法,Apriori用于关联规则挖掘(无监督),PCA用于降维(特征工程),因此答案为C。

7、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN

D.Pig

【答案】:A

解析:本题考察Hadoop生态系统的核心组件功能,正确答案为A。HDFS(Hadoop分布式文件系统)是Hadoop的核心组件之一,专门用于在集群中分布式存储海量数据。B选项MapReduce是Hadoop的分布式计算框架,负责数据处理而非存储;C选项YARN是Hadoop的资源管理器,负责集群资源调度;D选项Pig是基于Hadoop的高级查询语言,用于数据处理而非存储。

8、在大数据处理的预处理阶段,以下哪个操作主要用于处理数据中的缺失值和异常值?

A.数据清洗

B.数据集成

C.数据转换

D.数据可视化

【答案】:A

解析:本题考察数据预处理操作知识点。数据清洗是预处理的关键步骤,主要用于处理数据中的缺失值(如空值)、异常值(如离群点)、重复值等问题,确保数据质量。数据集成是合并多源数据,数据转换是对数据进行标准化、归一化等格式转换,数据可视化是结果展示,不属于预处理操作。

9、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper

【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(Ha

文档评论(0)

1亿VIP精品文档

相关文档