2026年国开电大大数据技术形考题库100道附答案【突破训练】.docxVIP

下载本文档

0
0
约2.44万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附答案【突破训练】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的5V特征中，描述数据价值密度低的特征是以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Variety（多样性）

D.Value（价值密度高）

【答案】：D

解析：本题考察大数据的5V特征知识点。大数据的5V特征包括Volume（数据量大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（价值密度低）、Veracity（数据真实性）。选项D中“价值密度高”与大数据实际特征不符，大数据中大部分数据原始价值密度低，需通过挖掘分析提升价值，因此正确答案为D。

2、以下哪项是数据仓库（DataWarehouse）的核心特征之一？

A.面向主题

B.存储原始业务数据

C.支持实时事务处理

D.数据具有易变性

【答案】：A

解析：本题考察数据仓库的核心特征。数据仓库是面向分析的集成数据集合，其特征包括：面向主题（选项A，围绕特定业务主题组织数据）、集成性（整合多源数据）、非易失性（数据写入后一般不修改）、时变性（随时间积累历史数据）。选项B错误，数据仓库存储的是整合后的分析型数据，而非原始业务数据（原始数据在操作型数据库）；选项C错误，数据仓库用于批处理分析，不支持实时事务（实时事务由OLTP系统处理）；选项D错误，数据仓库数据具有非易变性（“易变性”是OLTP系统特征）。因此“面向主题”是数据仓库的核心特征。

3、以下哪项是Hadoop分布式文件系统的核心组件？

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（HadoopDistributedFileSystem）是Hadoop分布式文件系统，负责数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Spark是独立的内存计算引擎，因此答案为A。

4、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.ZooKeeper（分布式协调服务）

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（Hadoop分布式文件系统）是Hadoop生态的基础，专为分布式存储海量数据设计；MapReduce是分布式计算框架，YARN负责资源管理与调度，ZooKeeper用于分布式协调，因此负责分布式存储的是HDFS，正确选项A。

5、大数据的5V特征不包括以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Variety（多样性）

D.Validity（有效性）

【答案】：D

解析：本题考察大数据5V特征知识点。大数据的5V特征是数据处理领域的核心概念，具体包括：Volume（数据量巨大）、Velocity（数据产生和处理速度快）、Variety（数据类型多样，如结构化、半结构化、非结构化）、Value（数据蕴含价值）、Veracity（数据真实性与可信度）。选项D的“Validity（有效性）”并非5V特征之一，因此错误。

6、以下哪种数据类型不属于大数据中的非结构化数据？

A.文本文件

B.数据库表

C.图片文件

D.日志文件

【答案】：B

解析：本题考察大数据数据类型知识点。非结构化数据是指格式不固定、难以用二维表结构表示的数据，如文本、图片、视频、日志等。数据库表属于结构化数据，具有固定的字段和格式，因此不属于非结构化数据，正确答案为B。

7、以下哪项属于大数据处理中的数据预处理步骤？

A.数据清洗（去除噪声、缺失值等）

B.数据挖掘（发现数据中的隐藏模式）

C.数据可视化（将数据转化为图表展示）

D.模型训练（构建预测模型）

【答案】：A

解析：本题考察大数据预处理知识点。数据预处理是数据进入分析流程前的关键步骤，包括数据清洗（处理缺失值、异常值）、数据集成（合并多源数据）、数据变换（标准化、归一化）、数据规约（降维、压缩）等。数据挖掘（B）、数据可视化（C）、模型训练（D）均属于数据分析或模型构建阶段，不属于预处理。因此答案为A。

8、在大数据预处理流程中，‘去除重复数据’属于以下哪个环节？

A.数据采集

B.数据清洗

C.数据集成

D.数据转换

【答案】：B

解析：本题考察大数据预处理环节知识点。数据清洗是对原始数据进行质量修复的过程，主要处理缺失值、异常值、重复值等问题；数据采集是获取数据的过程，数据集成是合并多源数据，数据转换是对数据格式进行标准化处理。去除重复数据属于数据清洗

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附答案【突破训练】.docxVIP