2026年国开电大大数据技术形考题库100道含答案【达标题】.docxVIP

  • 1
  • 0
  • 约2.39万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道含答案【达标题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop的分布式存储核心组件,专为存储海量数据设计;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,协调集群计算资源分配;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析。因此正确答案为A。

2、在大数据预处理中,当数据集中存在大量缺失值且数据类型为数值型时,最常用的处理方法是?

A.直接删除所有包含缺失值的样本

B.使用均值填充缺失值

C.使用众数填充缺失值

D.使用KNN算法进行缺失值预测

【答案】:B

解析:本题考察大数据数据预处理中缺失值处理的知识点。对于数值型数据,均值填充是最常用的缺失值处理方法(均值对整体趋势拟合较好);众数填充主要适用于类别型数据;直接删除会丢失大量数据信息,降低数据完整性;KNN算法属于复杂的机器学习方法,在大数据预处理中较少作为基础缺失值处理手段。因此正确答案为B。

3、大数据的4V特征中,不包括以下哪一项?

A.数据量巨大(Volume)

B.处理速度快(Velocity)

C.数据类型多样(Variety)

D.数据价值密度高(Value)

【答案】:D

解析:本题考察大数据的4V特征知识点。大数据的4V特征为:Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性/准确性)。其中“Value”并非4V标准特征,实际大数据中因数据量大导致价值密度通常较低,因此D选项“数据价值密度高”不属于4V特征。A、B、C均为4V的正确描述。

4、在大数据处理流程中,以下哪项不属于数据预处理阶段?

A.数据清洗

B.数据集成

C.数据存储

D.数据转换

【答案】:C

解析:本题考察大数据处理流程中数据预处理阶段知识点,数据预处理通常包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换、标准化)等操作;而数据存储属于数据处理后的持久化环节,不属于预处理阶段,因此正确答案为C。

5、以下哪个大数据框架主要用于批处理计算?

A.SparkStreaming(实时流处理框架)

B.Storm(实时流处理框架)

C.Flink(实时流处理框架)

D.MapReduce(分布式批处理框架)

【答案】:D

解析:MapReduce是Hadoop的核心批处理计算框架,适用于离线大数据计算;SparkStreaming、Storm、Flink均支持实时流数据处理(SparkStreaming为微批处理,Storm/Flink为纯流处理)。因此正确答案为D。

6、在Hadoop生态系统中,负责存储海量数据的分布式文件系统是?

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.Spark(快速计算引擎)

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;A选项MapReduce是分布式计算框架,C选项YARN负责集群资源管理,D选项Spark是独立的快速计算引擎,均非分布式文件系统。

7、以下哪种算法属于大数据分析中的监督学习?

A.K-Means

B.线性回归

C.PCA

D.Apriori

【答案】:B

解析:本题考察大数据分析中的监督学习知识点。监督学习需要有标签的训练数据,线性回归通过已知特征与标签的映射关系进行预测,属于监督学习;K-Means是无监督聚类算法,PCA是无监督降维算法,Apriori是无监督关联规则挖掘算法。因此正确答案为B。

8、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态的基础,专为分布式存储海量数据设计;MapReduce是分布式计算框架,YARN负责资源管理与调度,ZooKeeper用于分布式协调,因此负责分布式存储的是HDFS,正确选项A。

9、以下哪项是Python中用于大数据可视化的库

文档评论(0)

1亿VIP精品文档

相关文档