2026年国开电大大数据技术概论形考题库100道及参考答案（实用）.docxVIP

下载本文档

0
0
约2.46万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道及参考答案（实用）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的5V特征？

A.Volume（容量）

B.Velocity（速度）

C.Viscosity（粘性）

D.Variety（多样性）

【答案】：C

解析：本题考察大数据5V特征知识点。大数据的5V特征包括Volume（数据量巨大）、Velocity（数据产生/处理速度快）、Variety（数据类型多样，含结构化/非结构化）、Veracity（数据准确性与可信度）、Value（数据价值密度低但挖掘后价值高）。Viscosity（粘性）并非大数据特征，属于干扰项。

2、在Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统组件知识点。HDFS是Hadoop分布式文件系统，核心功能是分布式存储海量数据；MapReduce是分布式计算框架，负责并行处理任务；YARN是资源管理器，负责调度集群资源；Hive是基于Hadoop的数据仓库工具，用于数据查询和分析。因此负责分布式存储的核心组件是HDFS，正确答案为A。

3、大数据处理流程中，首先需要执行的关键步骤是以下哪一项？

A.数据存储（将数据持久化到存储系统）

B.数据采集（从各类数据源获取原始数据）

C.数据清洗（去除数据中的噪声和异常值）

D.数据挖掘（从数据中提取有价值信息）

【答案】：B

解析：本题考察大数据处理基本流程知识点。正确答案为B，数据采集是大数据处理的起始环节，只有先从传感器、日志、数据库等多种数据源收集原始数据，才能进行后续的存储、清洗、挖掘等操作；数据存储是采集后的数据存放环节，数据清洗是对采集后数据的预处理，数据挖掘是对处理后数据的分析，均在采集之后。

4、以下哪项是大数据的典型特征？

A.数据量小

B.处理速度慢

C.数据类型单一

D.数据价值密度低

【答案】：D

解析：大数据的5V特征包括Volume（大量）、Velocity（高速）、Variety（多样）、Veracity（真实）、Value（价值密度低）。A选项数据量小是传统小数据的特点，大数据数据量巨大；B选项处理速度慢不符合大数据‘高速’处理需求；C选项数据类型单一错误，大数据包含结构化、半结构化、非结构化数据（如文本、图像等），类型多样。因此正确答案为D。

5、以下哪项不属于大数据在典型行业中的创新应用场景？

A.金融行业的智能风控系统（实时识别欺诈交易）

B.医疗行业的患者数据分析与个性化诊疗方案推荐

C.传统零售企业的人工定期盘点库存管理

D.交通行业的智能调度与实时路况分析

【答案】：C

解析：本题考察大数据典型应用场景。A、B、D均为大数据创新应用：金融风控通过实时数据分析识别风险，医疗通过患者数据个性化诊疗，交通通过实时路况优化调度；而“传统零售人工定期盘点库存管理”依赖人工操作和传统统计，未利用大数据技术的自动化和实时性，不属于大数据典型应用场景。因此正确答案为C。

6、以下哪项通常不被视为大数据的典型采集来源？

A.物联网传感器实时监测数据

B.企业ERP系统历史交易数据

C.纸质书籍的文字扫描图像数据

D.电商平台用户行为日志数据

【答案】：C

解析：本题考察大数据采集来源的典型性。正确答案为C，纸质书籍扫描数据通常数据量小、结构化程度低且处理成本高，不属于大数据典型采集来源（大数据强调数字环境下的海量、实时数据流）。A选项物联网传感器数据（如工业监测、环境监测）是典型实时数据来源；B选项企业ERP系统数据（结构化历史交易）是企业大数据核心来源；D选项电商用户行为日志（高频、多维度）是典型用户数据采集场景。因此C不符合题意。

7、Hadoop生态系统中，负责分布式并行计算的核心框架是？

A.MapReduce

B.Spark

C.Hive

D.Flink

【答案】：A

解析：本题考察大数据计算框架知识点。MapReduce是Hadoop生态系统中经典的分布式并行计算模型，通过“分而治之”思想将任务分解为Map和Reduce阶段，在多节点上并行处理。选项BSpark是内存计算框架，虽效率更高但不属于Hadoop原生组件；选项CHive是数据仓库工具，用于SQL式查询；选项DFlink是流处理框架，非Hadoop生态核心计算框架。

8、关于Spark与HadoopMapReduce相比的核心优势，以下描述正确的是？

A.基于内存计算，大幅提升数据处理速度

B.仅支持磁盘计算，适合超大规模批处理

C.仅适用于实时流处理场景，不支持批处理

D.完全依赖HDF

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道及参考答案（实用）.docxVIP