2026年国开电大大数据技术概论形考题库100道含答案(培优).docxVIP

  • 1
  • 0
  • 约2.47万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道含答案(培优).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的4V特征?

A.Volume

B.Velocity

C.Variety

D.Veracity

【答案】:D

解析:大数据的4V特征通常指Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(数据价值密度低但挖掘后价值高)。Veracity(数据真实性)不属于标准4V特征,属于干扰项,因此正确答案为D。

2、Hadoop生态系统中,哪个组件负责分布式文件存储?

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;A选项MapReduce是分布式计算框架,负责并行任务处理;C选项YARN是资源管理器,负责集群资源调度;D选项Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为B。

3、ApacheSpark相比HadoopMapReduce的主要优势体现在?

A.处理速度更快(内存计算为主)

B.仅支持批处理任务(无法流处理)

C.不支持内存计算(依赖磁盘IO)

D.只能处理结构化数据(不支持非结构化)

【答案】:A

解析:本题考察Spark与MapReduce的技术差异。正确答案为A,Spark以内存计算为核心,将中间结果保存在内存中,避免MapReduce依赖的磁盘IO,因此迭代计算速度远快于MapReduce。B选项错误,Spark支持批处理(SparkSQL)和流处理(StructuredStreaming);C选项错误,Spark核心是内存计算框架;D选项错误,Spark支持结构化、半结构化(JSON)和非结构化(文本、图像)数据处理。因此A是Spark的核心优势。

4、以下哪项是Hadoop分布式文件系统(HDFS)的核心功能?

A.提供分布式并行计算能力

B.存储海量数据并通过副本机制提供高容错性

C.实时处理流数据(如SparkStreaming)

D.执行机器学习算法(如Mahout)

【答案】:B

解析:HDFS是分布式文件系统,核心功能是存储海量数据并通过多副本机制实现高容错性;A是MapReduce的功能,C属于流处理框架特性,D属于数据挖掘工具功能,均非HDFS核心功能。

5、大数据的“4V”特征中,指数据产生和处理的速度快的是哪个特征?

A.Volume(数据规模)

B.Velocity(数据速度)

C.Variety(数据多样性)

D.Value(数据价值密度)

【答案】:B

解析:本题考察大数据的核心特征知识点。大数据“4V”特征中,Velocity(速度)特指数据产生和处理的速度快,如实时数据流的处理需求;A选项Volume是指数据规模巨大;C选项Variety是指数据类型多样(结构化、半结构化、非结构化);D选项Value是指数据价值密度低(海量数据中有效信息占比小)。因此正确答案为B。

6、相比Hadoop的MapReduce,ApacheSpark的显著技术优势是?

A.仅支持批处理任务,不支持流处理

B.基于内存计算,计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行,无法独立部署

【答案】:B

解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算,避免了MapReduce多次磁盘IO操作,大幅提升计算速度;A错误,Spark同时支持批处理和流处理(如StructuredStreaming);C错误,Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习;D错误,Spark可独立部署,也可与Hadoop生态集成。因此正确答案为B。

7、大数据预处理阶段中,处理数据缺失值时,直接删除包含缺失值的样本属于哪种方法?

A.均值插补法

B.删除法

C.中位数插补法

D.众数插补法

【答案】:B

解析:本题考察数据预处理方法知识点。缺失值处理方法包括:删除法(直接删除含缺失值的样本,可能导致数据量减少)、插补法(用均值、中位数、众数等填充缺失值)。选项A、C、D均属于插补法,因此正确答案为B。

8、在大数据预处理流程中,“去除数据中的噪声、填补缺失值、处理重复记录”属于哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理的关键步骤。数据清洗的主要任务是处理数据质量问题,包括去除噪声、填补缺失值、

文档评论(0)

1亿VIP精品文档

相关文档