2026年国开电大大数据技术形考题库100道附答案(巩固).docxVIP

  • 0
  • 0
  • 约2.51万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附答案(巩固).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统中,HDFS(HadoopDistributedFileSystem)是分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的核心组件是HDFS,正确答案为B。

2、在大数据分析流程中,哪个步骤主要用于处理数据中的缺失值和异常值?

A.数据采集

B.数据清洗

C.数据挖掘

D.数据可视化

【答案】:B

解析:数据清洗是大数据分析的关键前置步骤,核心任务是处理原始数据中的噪声、缺失值、异常值、重复数据及格式不一致等问题,确保数据质量;数据采集是获取原始数据的过程,数据挖掘是从数据中提取模式,数据可视化是结果展示环节,故正确答案为B。

3、以下哪种数据库不属于大数据存储的典型技术?

A.HBase

B.MongoDB

C.MySQL

D.HDFS

【答案】:C

解析:本题考察大数据存储技术知识点。HBase(选项A)是基于HDFS的分布式NoSQL数据库,MongoDB(选项B)是文档型NoSQL数据库,均为大数据常用存储工具;HDFS(选项D)是Hadoop生态的分布式文件系统,用于存储海量数据。而MySQL(选项C)是传统关系型数据库,通常用于结构化数据的中小规模存储,不属于大数据典型存储技术。正确答案为C。

4、Spark与传统MapReduce相比,显著的性能优势主要得益于?

A.基于内存计算

B.使用磁盘存储数据

C.仅支持批处理任务

D.单节点并行计算

【答案】:A

解析:Spark采用内存计算模型,将中间数据存储在内存中,大幅减少磁盘IO操作,而MapReduce依赖磁盘读写中间结果,导致Spark处理速度更快;Spark支持内存+磁盘混合存储,并非仅用磁盘;Spark支持批处理、流处理等多种任务,且是分布式并行计算框架,非单节点。因此A正确。

5、在大数据数据挖掘中,以下哪种算法常用于将数据对象自动分组为具有相似特征的簇?

A.线性回归(LinearRegression)

B.K-Means聚类算法

C.决策树(DecisionTree)

D.Apriori关联规则算法

【答案】:B

解析:本题考察数据挖掘典型算法的应用场景知识点。K-Means是经典的聚类算法,核心是将数据对象按相似度自动分组为K个簇;线性回归用于预测连续值(回归分析);决策树用于分类或回归任务(通过树结构划分特征);Apriori用于挖掘关联规则(如“购买A的用户也常购买B”)。选项A、C、D均非聚类分组算法,因此正确答案为B。

6、大数据的5V特征中,描述数据产生和处理速度的是以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)

【答案】:B

解析:本题考察大数据的5V核心特征知识点。大数据的5V特征包括Volume(容量,数据规模)、Velocity(速度,数据产生和处理的速度)、Variety(多样性,数据类型复杂)、Veracity(真实性,数据准确性)、Value(价值,数据蕴含的价值)。选项A是容量特征,选项C是多样性特征,选项D是真实性特征,均不符合题意,因此正确答案为B。

7、大数据的5V特征中,不包括以下哪一项?

A.Volume(数据容量)

B.Velocity(处理速度)

C.Viscosity(数据粘度)

D.Veracity(数据真实性)

【答案】:C

解析:本题考察大数据5V核心特征知识点,5V特征包括Volume(数据量规模)、Velocity(处理/生成速度)、Variety(数据多样性)、Value(数据价值密度)、Veracity(数据真实性)。Viscosity(粘度)并非大数据特征,属于干扰项,因此正确答案为C。

8、适用于实时分析用户行为数据流(如电商实时推荐)的大数据处理方式是?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.分布式计算(DistributedComputing)

D.并行计算(ParallelComputing)

【答案】:B

解析:本题考察大数据处理技术类型的应用场景。批处理(A选项)适用于离线、批量数据处理(如T+1报表生成);流处理(B选项)支持实时处理持续产生的数据流

文档评论(0)

1亿VIP精品文档

相关文档