2026年国开电大大数据技术形考题库100道(综合题).docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 38页
  • 2026-03-09 发布于四川
  • 举报

2026年国开电大大数据技术形考题库100道(综合题).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中负责分布式文件存储的核心组件是?

A.MapReduce(分布式计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop核心组件知识点。HDFS是Hadoop的分布式文件系统,负责海量数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理与任务调度,Hive是基于Hadoop的数据仓库工具(非核心存储组件)。

2、在大数据预处理流程中,‘去除重复数据’属于以下哪个环节?

A.数据采集

B.数据清洗

C.数据集成

D.数据转换

【答案】:B

解析:本题考察大数据预处理环节知识点。数据清洗是对原始数据进行质量修复的过程,主要处理缺失值、异常值、重复值等问题;数据采集是获取数据的过程,数据集成是合并多源数据,数据转换是对数据格式进行标准化处理。去除重复数据属于数据清洗环节,正确答案为B。

3、以下哪种属于大数据分析中常用的无监督学习算法?

A.线性回归

B.K-means聚类

C.决策树分类

D.贝叶斯分类

【答案】:B

解析:本题考察大数据分析算法知识点。K-means聚类是典型的无监督学习算法,用于将数据自动分组(簇),无需预先标记;线性回归、决策树分类、贝叶斯分类均属于监督学习算法,需要有标注的训练数据。因此正确答案为B。

4、在大数据数据预处理阶段,处理缺失值、异常值等数据质量问题的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗主要用于处理数据中的缺失值、异常值、重复值等质量问题;数据集成是合并多源数据,数据转换是统一数据格式,数据归约是减少数据规模,均与处理缺失值无关,故正确答案为A。

5、在机器学习中,用于预测类别标签(如“垃圾邮件/非垃圾邮件”)的算法是?

A.逻辑回归(LogisticRegression)

B.线性回归(LinearRegression)

C.K-means聚类算法

D.PCA(主成分分析)降维算法

【答案】:A

解析:本题考察机器学习算法类型知识点。逻辑回归是典型的分类算法,用于预测离散类别;线性回归是回归算法(预测连续值);K-means是无监督聚类算法(无标签数据分组);PCA是无监督降维算法(减少特征维度),均不用于分类任务。

6、适用于实时分析用户行为数据流(如电商实时推荐)的大数据处理方式是?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.分布式计算(DistributedComputing)

D.并行计算(ParallelComputing)

【答案】:B

解析:本题考察大数据处理技术类型的应用场景。批处理(A选项)适用于离线、批量数据处理(如T+1报表生成);流处理(B选项)支持实时处理持续产生的数据流,能满足实时分析需求;分布式计算(C选项)和并行计算(D选项)是计算模式,而非专门针对实时流数据的处理方式。因此实时用户行为分析应采用流处理。

7、Spark作为大数据处理框架,相比HadoopMapReduce的核心优势是?

A.基于内存计算,处理速度更快

B.仅支持结构化数据处理

C.只能进行离线批处理

D.必须运行在分布式文件系统HDFS上

【答案】:A

解析:本题考察Spark与HadoopMapReduce的技术差异。Spark的核心优势是基于内存计算,避免了HadoopMapReduce的磁盘IO瓶颈,因此处理速度更快(尤其适合迭代计算和实时分析)。B选项错误,Spark支持结构化、半结构化(如JSON)、非结构化(如文本)等多种数据类型;C选项错误,Spark不仅支持批处理,还支持SparkStreaming实时计算;D选项错误,Spark可运行在本地、YARN、Kubernetes等多种环境,不依赖HDFS。

8、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理,Hive提供数据仓库查询接口。因此正确答案为A。

9、大数据的核心特征(4V)不包括以下哪一项?

A.

文档评论(0)

1亿VIP精品文档

相关文档