2026年国开电大大数据技术形考题库100道及参考答案【巩固】.docxVIP

  • 1
  • 0
  • 约2.44万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及参考答案【巩固】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责存储海量数据的分布式文件系统是?

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.Spark(快速计算引擎)

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;A选项MapReduce是分布式计算框架,C选项YARN负责集群资源管理,D选项Spark是独立的快速计算引擎,均非分布式文件系统。

2、大数据的5V特征中,不包含以下哪一项?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Variety(数据多样性)

D.Validity(数据有效性)

【答案】:D

解析:本题考察大数据的5V核心特征。大数据的5V特征为:Volume(数据量大)、Velocity(处理速度快)、Variety(数据多样性)、Veracity(数据真实性)、Value(价值密度低)。选项D的“Validity(数据有效性)”不属于5V特征,因此正确答案为D。

3、相比MapReduce,Spark的主要计算优势是?

A.基于内存计算,处理速度更快

B.仅支持批处理任务(不支持流处理)

C.不支持复杂SQL查询(仅支持简单计算)

D.必须依赖HDFS作为唯一存储系统

【答案】:A

解析:本题考察Spark与MapReduce的核心差异。Spark采用内存计算模式,避免MapReduce的磁盘IO瓶颈,处理速度更快;Spark支持批处理、流处理(SparkStreaming)和交互式查询;Spark可使用多种存储系统(如HDFS、Cassandra等),并非必须依赖HDFS。因此正确答案为A。

4、以下哪种算法属于无监督学习的聚类算法?

A.K-Means(无监督聚类)

B.SVM(监督分类算法)

C.决策树(监督分类/回归)

D.逻辑回归(监督分类/回归)

【答案】:A

解析:本题考察无监督学习算法类型。无监督学习无需标签,通过数据自身特征分组。K-Means是典型无监督聚类算法,将相似数据点自动划分为K个簇;SVM、决策树、逻辑回归均为监督学习算法,需预先标记的训练数据(如分类标签)。因此正确答案为A。

5、大数据的4V特征中,不包括以下哪一项?

A.Volume(规模)

B.Velocity(速度)

C.Veracity(真实性)

D.Variety(多样性)

【答案】:C

解析:本题考察大数据的4V特征知识点。大数据的标准4V特征为Volume(数据规模)、Velocity(处理速度)、Variety(数据多样性)、Value(数据价值)。选项C的Veracity(真实性)是大数据处理中需关注的数据质量维度,但不属于4V特征的核心定义,因此正确答案为C。

6、大数据的5V特征中,不包括以下哪一项?

A.Volume(数据容量)

B.Velocity(处理速度)

C.Viscosity(数据粘度)

D.Veracity(数据真实性)

【答案】:C

解析:本题考察大数据5V核心特征知识点,5V特征包括Volume(数据量规模)、Velocity(处理/生成速度)、Variety(数据多样性)、Value(数据价值密度)、Veracity(数据真实性)。Viscosity(粘度)并非大数据特征,属于干扰项,因此正确答案为C。

7、Hadoop生态系统中负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统包含多个组件:A选项HDFS是分布式文件系统,用于存储海量数据;B选项MapReduce是分布式计算框架,实现并行计算;C选项YARN(YetAnotherResourceNegotiator)是资源管理器,负责集群资源的分配和调度,协调MapReduce等计算任务的执行;D选项Hive是基于Hadoop的数据仓库工具,提供类SQL查询语言。因此正确答案为C。

8、以下哪种属于大数据流处理技术?

A.HadoopMapReduce(批处理框架)

B.ApacheStorm(实时流处理框架)

C.ApacheSpark(批处理为主)

D.HBase(分布式NoSQL数据库)

【答案】:B

解析:本题考察大数据处理技术类型知识点。HadoopMapReduce是典型的批处理框架,适用于离线数据计算;S

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档