2026年国开电大大数据技术概论形考题库100道及参考答案（综合题）.docxVIP

下载本文档

1
0
约2.5万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道及参考答案（综合题）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪个是基于内存计算的大数据处理框架？

A.Hadoop

B.Spark

C.Hive

D.HBase

【答案】：B

解析：Hadoop的核心计算模型MapReduce基于磁盘I/O，处理速度较慢；Spark采用内存计算架构，减少磁盘操作，显著提升数据处理效率；Hive是数据仓库工具，HBase是分布式NoSQL数据库，均不基于内存计算。因此正确答案为B。

2、大数据处理流程中，首先需要执行的关键步骤是以下哪一项？

A.数据存储（将数据持久化到存储系统）

B.数据采集（从各类数据源获取原始数据）

C.数据清洗（去除数据中的噪声和异常值）

D.数据挖掘（从数据中提取有价值信息）

【答案】：B

解析：本题考察大数据处理基本流程知识点。正确答案为B，数据采集是大数据处理的起始环节，只有先从传感器、日志、数据库等多种数据源收集原始数据，才能进行后续的存储、清洗、挖掘等操作；数据存储是采集后的数据存放环节，数据清洗是对采集后数据的预处理，数据挖掘是对处理后数据的分析，均在采集之后。

3、在大数据预处理流程中，以下哪项不属于数据清洗的主要内容？

A.处理缺失值（如填充或删除空值）

B.识别并处理异常值（如离群点）

C.去除重复数据（如重复记录）

D.从原始数据源采集数据

【答案】：D

解析：本题考察大数据预处理中数据清洗的范围。数据清洗是对已有数据进行质量优化，主要包括处理缺失值、异常值、重复值等；而“从原始数据源采集数据”属于数据预处理的“数据采集”环节，并非清洗内容。因此正确答案为D，A、B、C均为数据清洗的核心操作。

4、在大数据预处理阶段，处理缺失值时，对于缺失比例较低且数据分布相对集中的字段，最常用的方法是？

A.直接删除该字段

B.使用均值/中位数填充

C.使用KNN算法填充

D.忽略缺失值

【答案】：B

解析：本题考察数据预处理中缺失值处理方法。A选项直接删除会丢失信息，仅适用于缺失比例极高的字段；B选项均值/中位数填充是课程基础知识点，适用于缺失比例低且数据分布集中的情况；C选项KNN算法属于高级机器学习方法，非基础课程重点；D选项“忽略”会导致数据不完整，影响分析结果。因此正确答案为B。

5、以下哪项属于大数据的可视化分析工具？

A.Hadoop（分布式计算框架）

B.Tableau（专业数据可视化工具）

C.Hive（数据仓库查询工具）

D.Kafka（实时消息队列系统）

【答案】：B

解析：本题考察大数据工具的功能分类。正确答案为B，Tableau是专业交互式数据可视化工具，支持多数据源连接和图表生成。A选项Hadoop是分布式计算框架，不涉及可视化；C选项Hive是数据仓库工具，用于存储和查询数据；D选项Kafka是实时消息队列，用于数据传输和解耦。因此B是唯一的可视化工具。

6、大数据的‘4V’特征中，‘指数据类型的多样性，包括结构化、半结构化和非结构化数据’的是以下哪一项？

A.Volume（数据量大）

B.Velocity（处理速度快）

C.Variety（数据类型多样）

D.Value（价值密度低）

【答案】：C

解析：本题考察大数据的4V特征定义。正确答案为C：Variety特指数据类型的多样性，涵盖结构化（如数据库表）、半结构化（如XML）和非结构化（如文本、图片）数据。A选项Volume指数据规模巨大（PB级）；B选项Velocity强调数据产生与处理速度快（需实时/近实时处理）；D选项Value指数据价值密度低，需通过挖掘提取价值。因此C符合题意。

7、在大数据分析流程中，数据清洗的主要目的是？

A.去除噪声数据和异常值

B.将数据转换为结构化格式

C.对数据进行加密保护

D.提升数据的计算效率

【答案】：A

解析：本题考察数据预处理知识点。数据清洗主要处理数据质量问题，核心是去除缺失值、噪声数据和异常值，确保数据准确性。选项B属于数据转换步骤，C属于数据安全范畴，D是数据压缩等优化的目标，均非数据清洗的目的。因此正确答案为A。

8、在数据类型分类中，以下属于非结构化数据的是？

A.关系型数据库表中的数据

B.纯文本文件（如.txt格式）

C.XML格式的数据

D.JSON格式的数据

【答案】：B

解析：本题考察数据类型的概念，正确答案为B。非结构化数据无固定数据模型，难以用二维表结构表示，纯文本文件（如.txt）通常无预定义格式，属于非结构化数据；A选项关系型数据库表数据是结构化数据（有明确字段和表结构）；C选项XML和D选项JSON属于半结构化数据（有一定结构但非严格关系型），因此B为正确答案。

2026年国开电大大数据技术概论形考题库100道及参考答案（综合题）.docxVIP

2026年国开电大大数据技术概论形考题库100道及参考答案（综合题）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档