2026年国开电大大数据技术形考题库100道附答案【突破训练】.docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附答案【突破训练】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的5V特征中,描述数据价值密度低的特征是以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Value(价值密度高)

【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(价值密度低)、Veracity(数据真实性)。选项D中“价值密度高”与大数据实际特征不符,大数据中大部分数据原始价值密度低,需通过挖掘分析提升价值,因此正确答案为D。

2、以下哪项是数据仓库(DataWarehouse)的核心特征之一?

A.面向主题

B.存储原始业务数据

C.支持实时事务处理

D.数据具有易变性

【答案】:A

解析:本题考察数据仓库的核心特征。数据仓库是面向分析的集成数据集合,其特征包括:面向主题(选项A,围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后一般不修改)、时变性(随时间积累历史数据)。选项B错误,数据仓库存储的是整合后的分析型数据,而非原始业务数据(原始数据在操作型数据库);选项C错误,数据仓库用于批处理分析,不支持实时事务(实时事务由OLTP系统处理);选项D错误,数据仓库数据具有非易变性(“易变性”是OLTP系统特征)。因此“面向主题”是数据仓库的核心特征。

3、以下哪项是Hadoop分布式文件系统的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Spark是独立的内存计算引擎,因此答案为A。

4、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态的基础,专为分布式存储海量数据设计;MapReduce是分布式计算框架,YARN负责资源管理与调度,ZooKeeper用于分布式协调,因此负责分布式存储的是HDFS,正确选项A。

5、大数据的5V特征不包括以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)

【答案】:D

解析:本题考察大数据5V特征知识点。大数据的5V特征是数据处理领域的核心概念,具体包括:Volume(数据量巨大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样,如结构化、半结构化、非结构化)、Value(数据蕴含价值)、Veracity(数据真实性与可信度)。选项D的“Validity(有效性)”并非5V特征之一,因此错误。

6、以下哪种数据类型不属于大数据中的非结构化数据?

A.文本文件

B.数据库表

C.图片文件

D.日志文件

【答案】:B

解析:本题考察大数据数据类型知识点。非结构化数据是指格式不固定、难以用二维表结构表示的数据,如文本、图片、视频、日志等。数据库表属于结构化数据,具有固定的字段和格式,因此不属于非结构化数据,正确答案为B。

7、以下哪项属于大数据处理中的数据预处理步骤?

A.数据清洗(去除噪声、缺失值等)

B.数据挖掘(发现数据中的隐藏模式)

C.数据可视化(将数据转化为图表展示)

D.模型训练(构建预测模型)

【答案】:A

解析:本题考察大数据预处理知识点。数据预处理是数据进入分析流程前的关键步骤,包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据变换(标准化、归一化)、数据规约(降维、压缩)等。数据挖掘(B)、数据可视化(C)、模型训练(D)均属于数据分析或模型构建阶段,不属于预处理。因此答案为A。

8、在大数据预处理流程中,‘去除重复数据’属于以下哪个环节?

A.数据采集

B.数据清洗

C.数据集成

D.数据转换

【答案】:B

解析:本题考察大数据预处理环节知识点。数据清洗是对原始数据进行质量修复的过程,主要处理缺失值、异常值、重复值等问题;数据采集是获取数据的过程,数据集成是合并多源数据,数据转换是对数据格式进行标准化处理。去除重复数据属于数据清洗

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档