2026年国开电大大数据技术形考题库100道【实用】.docxVIP

  • 0
  • 0
  • 约2.39万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道【实用】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop的分布式存储核心组件,专为存储海量数据设计;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,协调集群计算资源分配;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析。因此正确答案为A。

2、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,用于并行处理海量数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的组件是HDFS,正确答案为A。

3、大数据的4V特征中,不包含以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)

【答案】:D

解析:本题考察大数据4V特征知识点,大数据经典4V特征为Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值),而Veracity(真实性)属于大数据扩展特征(5V中的第五个V),因此4V特征中不包含D选项,正确答案为D。

4、以下哪种数据库类型适合存储用户社交关系网络(如微博关注关系)?

A.关系型数据库(如MySQL)

B.文档型数据库(如MongoDB)

C.列族型数据库(如HBase)

D.图数据库(如Neo4j)

【答案】:D

解析:本题考察NoSQL数据库应用场景知识点。图数据库(如Neo4j)专为处理节点与关系复杂的图结构数据设计,适合存储社交关系网络(用户为节点、关注关系为边);关系型数据库适合结构化表格数据;文档型数据库适合嵌套文档结构(如JSON);列族型数据库适合海量结构化数据(如时序数据)。因此正确答案为D。

5、Hadoop分布式文件系统的英文缩写是?

A.HDFS

B.YARN

C.MapReduce

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS是HadoopDistributedFileSystem的缩写,是Hadoop的分布式文件系统,负责海量数据的存储;YARN是资源管理器,MapReduce是计算框架,Hive是数据仓库工具,因此A选项正确。

6、以下哪项不属于大数据的基本特征?

A.数据量大(Volume)

B.价值密度高

C.处理速度快(Velocity)

D.数据类型多样(Variety)

【答案】:B

解析:本题考察大数据的基本特征知识点。大数据的核心特征通常包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(价值密度低)、Veracity(数据真实性)等。选项B“价值密度高”与大数据特征中“价值密度低”(即海量数据中有效信息占比低)相悖,因此不属于大数据基本特征。其他选项均为大数据典型特征。

7、K-means算法在数据挖掘中主要用于解决以下哪种任务?

A.分类(Classification)

B.聚类(Clustering)

C.关联规则挖掘(AssociationRuleMining)

D.回归分析(RegressionAnalysis)

【答案】:B

解析:本题考察数据挖掘算法类型。K-means是经典的无监督学习聚类算法,通过距离度量将数据划分为K个簇(cluster);选项A的分类需预先定义类别标签(如决策树、SVM),属于有监督学习;选项C的关联规则挖掘(如Apriori)用于发现数据项之间的关联关系(如“啤酒与尿布”);选项D的回归分析用于预测连续数值(如线性回归)。因此,K-means属于聚类任务,正确答案为B。

8、在Hadoop生态系统中,负责存储海量结构化与非结构化数据的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Spark(内存计算引擎)

【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFil

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档