2026年国开电大大数据技术概论形考题库100道及参考答案(综合题).docxVIP

  • 1
  • 0
  • 约2.5万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及参考答案(综合题).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪个是基于内存计算的大数据处理框架?

A.Hadoop

B.Spark

C.Hive

D.HBase

【答案】:B

解析:Hadoop的核心计算模型MapReduce基于磁盘I/O,处理速度较慢;Spark采用内存计算架构,减少磁盘操作,显著提升数据处理效率;Hive是数据仓库工具,HBase是分布式NoSQL数据库,均不基于内存计算。因此正确答案为B。

2、大数据处理流程中,首先需要执行的关键步骤是以下哪一项?

A.数据存储(将数据持久化到存储系统)

B.数据采集(从各类数据源获取原始数据)

C.数据清洗(去除数据中的噪声和异常值)

D.数据挖掘(从数据中提取有价值信息)

【答案】:B

解析:本题考察大数据处理基本流程知识点。正确答案为B,数据采集是大数据处理的起始环节,只有先从传感器、日志、数据库等多种数据源收集原始数据,才能进行后续的存储、清洗、挖掘等操作;数据存储是采集后的数据存放环节,数据清洗是对采集后数据的预处理,数据挖掘是对处理后数据的分析,均在采集之后。

3、在大数据预处理流程中,以下哪项不属于数据清洗的主要内容?

A.处理缺失值(如填充或删除空值)

B.识别并处理异常值(如离群点)

C.去除重复数据(如重复记录)

D.从原始数据源采集数据

【答案】:D

解析:本题考察大数据预处理中数据清洗的范围。数据清洗是对已有数据进行质量优化,主要包括处理缺失值、异常值、重复值等;而“从原始数据源采集数据”属于数据预处理的“数据采集”环节,并非清洗内容。因此正确答案为D,A、B、C均为数据清洗的核心操作。

4、在大数据预处理阶段,处理缺失值时,对于缺失比例较低且数据分布相对集中的字段,最常用的方法是?

A.直接删除该字段

B.使用均值/中位数填充

C.使用KNN算法填充

D.忽略缺失值

【答案】:B

解析:本题考察数据预处理中缺失值处理方法。A选项直接删除会丢失信息,仅适用于缺失比例极高的字段;B选项均值/中位数填充是课程基础知识点,适用于缺失比例低且数据分布集中的情况;C选项KNN算法属于高级机器学习方法,非基础课程重点;D选项“忽略”会导致数据不完整,影响分析结果。因此正确答案为B。

5、以下哪项属于大数据的可视化分析工具?

A.Hadoop(分布式计算框架)

B.Tableau(专业数据可视化工具)

C.Hive(数据仓库查询工具)

D.Kafka(实时消息队列系统)

【答案】:B

解析:本题考察大数据工具的功能分类。正确答案为B,Tableau是专业交互式数据可视化工具,支持多数据源连接和图表生成。A选项Hadoop是分布式计算框架,不涉及可视化;C选项Hive是数据仓库工具,用于存储和查询数据;D选项Kafka是实时消息队列,用于数据传输和解耦。因此B是唯一的可视化工具。

6、大数据的‘4V’特征中,‘指数据类型的多样性,包括结构化、半结构化和非结构化数据’的是以下哪一项?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Variety(数据类型多样)

D.Value(价值密度低)

【答案】:C

解析:本题考察大数据的4V特征定义。正确答案为C:Variety特指数据类型的多样性,涵盖结构化(如数据库表)、半结构化(如XML)和非结构化(如文本、图片)数据。A选项Volume指数据规模巨大(PB级);B选项Velocity强调数据产生与处理速度快(需实时/近实时处理);D选项Value指数据价值密度低,需通过挖掘提取价值。因此C符合题意。

7、在大数据分析流程中,数据清洗的主要目的是?

A.去除噪声数据和异常值

B.将数据转换为结构化格式

C.对数据进行加密保护

D.提升数据的计算效率

【答案】:A

解析:本题考察数据预处理知识点。数据清洗主要处理数据质量问题,核心是去除缺失值、噪声数据和异常值,确保数据准确性。选项B属于数据转换步骤,C属于数据安全范畴,D是数据压缩等优化的目标,均非数据清洗的目的。因此正确答案为A。

8、在数据类型分类中,以下属于非结构化数据的是?

A.关系型数据库表中的数据

B.纯文本文件(如.txt格式)

C.XML格式的数据

D.JSON格式的数据

【答案】:B

解析:本题考察数据类型的概念,正确答案为B。非结构化数据无固定数据模型,难以用二维表结构表示,纯文本文件(如.txt)通常无预定义格式,属于非结构化数据;A选项关系型数据库表数据是结构化数据(有明确字段和表结构);C选项XML和D选项JSON属于半结构化数据(有一定结构但非严格关系型),因此B为正确答案。

9、大数据技术的发展离不开云计算的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档