2026年国开电大大数据技术形考题库100道及完整答案【精选题】.docxVIP

  • 1
  • 0
  • 约2.47万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及完整答案【精选题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的4V特征中,不包含以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Veracity(真实性)

D.Variety(多样性)

【答案】:C

解析:本题考察大数据核心特征知识点。大数据的4V特征明确为Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值),而Veracity(真实性)不属于4V特征范畴,属于干扰项。其他选项均为4V特征的组成部分。

2、Hadoop生态系统中负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统包含多个组件:A选项HDFS是分布式文件系统,用于存储海量数据;B选项MapReduce是分布式计算框架,实现并行计算;C选项YARN(YetAnotherResourceNegotiator)是资源管理器,负责集群资源的分配和调度,协调MapReduce等计算任务的执行;D选项Hive是基于Hadoop的数据仓库工具,提供类SQL查询语言。因此正确答案为C。

3、数据预处理阶段中,用于处理数据缺失值、异常值和重复数据的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗的核心作用是处理数据中的质量问题,包括缺失值填充、异常值修正、重复数据删除等;B选项数据集成是合并多个数据源,C选项数据转换是对数据格式或尺度进行标准化处理,D选项数据规约是通过降维或采样减少数据规模。因此正确答案为A。

4、在大数据预处理中,当数据集中存在大量缺失值且数据类型为数值型时,最常用的处理方法是?

A.直接删除所有包含缺失值的样本

B.使用均值填充缺失值

C.使用众数填充缺失值

D.使用KNN算法进行缺失值预测

【答案】:B

解析:本题考察大数据数据预处理中缺失值处理的知识点。对于数值型数据,均值填充是最常用的缺失值处理方法(均值对整体趋势拟合较好);众数填充主要适用于类别型数据;直接删除会丢失大量数据信息,降低数据完整性;KNN算法属于复杂的机器学习方法,在大数据预处理中较少作为基础缺失值处理手段。因此正确答案为B。

5、在数据预处理流程中,用于处理数据中的缺失值、异常值和重复数据的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据预处理包括多个关键步骤:A选项数据清洗主要用于处理数据中的质量问题,如缺失值填充、异常值处理、重复数据删除等,确保数据的准确性和一致性;B选项数据集成是将多个数据源的数据合并到一个统一的数据存储中;C选项数据转换是对数据进行格式转换、标准化或归一化等操作;D选项数据规约是通过降维或特征选择减少数据维度,提高处理效率。因此正确答案为A。

6、Spark作为大数据处理框架,其相比HadoopMapReduce的显著优势在于?

A.支持内存计算,处理速度更快

B.仅适用于批处理任务

C.只能运行在HDFS之上

D.不支持实时数据处理

【答案】:A

解析:本题考察Spark与MapReduce的对比知识点。Spark的核心优势是支持内存计算,减少磁盘IO,因此处理速度远快于基于磁盘的MapReduce;选项B错误,Spark既支持批处理也支持流处理(SparkStreaming);选项C错误,Spark可运行在多种存储系统(如HDFS、S3、Cassandra等);选项D错误,SparkStreaming支持实时数据处理。

7、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper

【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态中负责数据分布式存储的核心组件;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务,均不符合题意,故正确答案为A。

8、下列哪项是大数据的特征之一,指数据产生和处理的速度极快?

A.Volume(数据量巨大)

B.Velocity(数据产生与处理速度快)

C.Variety(数据类型多样)

D.Value(数据价值密度高)

【答案】:B

解析:本题考察大数据的5V特征。A选项Volume指数据规模庞大,强调数据总量;B选项Velocity特指数据产生和处理的速度极快,符合题干描述;C选项

文档评论(0)

1亿VIP精品文档

相关文档