2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 38页
  • 2026-03-11 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下关于数据仓库(DW)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向主题和历史数据,数据湖更注重原始数据的存储与管理

C.数据仓库更新频率高,数据湖更新频率低

D.数据仓库适合实时分析,数据湖适合批处理分析

【答案】:B

解析:本题考察数据仓库与数据湖的核心区别。数据仓库(DW)是面向主题、集成、时变、非易失的结构化数据集合,用于历史分析和决策支持;数据湖(DataLake)则支持存储结构化、半结构化、非结构化原始数据,强调数据多样性和灵活性,更注重原始数据的存储与管理。选项A错误,数据湖可存储结构化数据;选项C错误,数据湖因存储原始数据,更新频率通常更高;选项D错误,数据仓库适合批处理,数据湖可同时支持批处理和实时分析。

2、大数据的4V特征中,不包括以下哪一项?

A.多样性(Variety)

B.可变性(Variability)

C.速度(Velocity)

D.价值(Value)

【答案】:B

解析:本题考察大数据的4V核心特征知识点。大数据的4V特征包括Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值)。选项B的“可变性”并非大数据4V特征之一,属于干扰项,因此正确答案为B。

3、大数据的5V特征不包括以下哪一项?

A.Volume(数量)

B.Velocity(速度)

C.Veracity(真实性)

D.Variance(方差)

【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征为Volume(数量)、Velocity(速度)、Variety(多样性)、Value(价值)、Veracity(真实性),用于描述大数据的核心特性。选项D“Variance(方差)”是统计学中的概念,并非大数据的5V特征之一,因此错误。

4、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.MapReduce(计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(分布式文件系统)是Hadoop的核心存储组件,负责将海量数据分布存储在多台服务器上;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。选项A、B、D均非Hadoop的分布式存储组件,因此正确答案为C。

5、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的是HDFS,正确答案为A。

6、数据预处理中,“去除数据中的噪声、缺失值、重复值”属于哪个环节?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗的核心是处理原始数据中的质量问题,包括去除噪声(异常值)、缺失值填充、重复值删除等;数据集成是合并多源数据;数据转换是对数据格式、单位等进行转换;数据规约是在保证信息完整的前提下减少数据规模。因此正确答案为A。

7、以下哪一项不属于大数据的4V特征?

A.Velocity

B.Variety

C.Variability

D.Volume

【答案】:C

解析:本题考察大数据的核心特征(4V)知识点。大数据的4V特征通常指Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)、Value(数据价值),而Variability(可变性)并非大数据4V特征的标准组成部分。因此正确答案为C。

8、在大数据处理流程中,用于处理数据噪声、缺失值和重复数据的环节是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察大数据预处理环节知识点。数据清洗的核心目标是处理数据质量问题,包括去除噪声、填补缺失值、删除重复数据;数据集成是合并多源数据,数据转换是调整数据格式/类型,数据归约是减少数据规模。因此处理数据噪声和缺失值的环节是数据清洗,正确答案为A。

9、在决策

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档