2026年国开电大大数据技术概论形考题库100道及参考答案(实用).docxVIP

  • 0
  • 0
  • 约2.46万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及参考答案(实用).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的5V特征?

A.Volume(容量)

B.Velocity(速度)

C.Viscosity(粘性)

D.Variety(多样性)

【答案】:C

解析:本题考察大数据5V特征知识点。大数据的5V特征包括Volume(数据量巨大)、Velocity(数据产生/处理速度快)、Variety(数据类型多样,含结构化/非结构化)、Veracity(数据准确性与可信度)、Value(数据价值密度低但挖掘后价值高)。Viscosity(粘性)并非大数据特征,属于干扰项。

2、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS是Hadoop分布式文件系统,核心功能是分布式存储海量数据;MapReduce是分布式计算框架,负责并行处理任务;YARN是资源管理器,负责调度集群资源;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的核心组件是HDFS,正确答案为A。

3、大数据处理流程中,首先需要执行的关键步骤是以下哪一项?

A.数据存储(将数据持久化到存储系统)

B.数据采集(从各类数据源获取原始数据)

C.数据清洗(去除数据中的噪声和异常值)

D.数据挖掘(从数据中提取有价值信息)

【答案】:B

解析:本题考察大数据处理基本流程知识点。正确答案为B,数据采集是大数据处理的起始环节,只有先从传感器、日志、数据库等多种数据源收集原始数据,才能进行后续的存储、清洗、挖掘等操作;数据存储是采集后的数据存放环节,数据清洗是对采集后数据的预处理,数据挖掘是对处理后数据的分析,均在采集之后。

4、以下哪项是大数据的典型特征?

A.数据量小

B.处理速度慢

C.数据类型单一

D.数据价值密度低

【答案】:D

解析:大数据的5V特征包括Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)、Value(价值密度低)。A选项数据量小是传统小数据的特点,大数据数据量巨大;B选项处理速度慢不符合大数据‘高速’处理需求;C选项数据类型单一错误,大数据包含结构化、半结构化、非结构化数据(如文本、图像等),类型多样。因此正确答案为D。

5、以下哪项不属于大数据在典型行业中的创新应用场景?

A.金融行业的智能风控系统(实时识别欺诈交易)

B.医疗行业的患者数据分析与个性化诊疗方案推荐

C.传统零售企业的人工定期盘点库存管理

D.交通行业的智能调度与实时路况分析

【答案】:C

解析:本题考察大数据典型应用场景。A、B、D均为大数据创新应用:金融风控通过实时数据分析识别风险,医疗通过患者数据个性化诊疗,交通通过实时路况优化调度;而“传统零售人工定期盘点库存管理”依赖人工操作和传统统计,未利用大数据技术的自动化和实时性,不属于大数据典型应用场景。因此正确答案为C。

6、以下哪项通常不被视为大数据的典型采集来源?

A.物联网传感器实时监测数据

B.企业ERP系统历史交易数据

C.纸质书籍的文字扫描图像数据

D.电商平台用户行为日志数据

【答案】:C

解析:本题考察大数据采集来源的典型性。正确答案为C,纸质书籍扫描数据通常数据量小、结构化程度低且处理成本高,不属于大数据典型采集来源(大数据强调数字环境下的海量、实时数据流)。A选项物联网传感器数据(如工业监测、环境监测)是典型实时数据来源;B选项企业ERP系统数据(结构化历史交易)是企业大数据核心来源;D选项电商用户行为日志(高频、多维度)是典型用户数据采集场景。因此C不符合题意。

7、Hadoop生态系统中,负责分布式并行计算的核心框架是?

A.MapReduce

B.Spark

C.Hive

D.Flink

【答案】:A

解析:本题考察大数据计算框架知识点。MapReduce是Hadoop生态系统中经典的分布式并行计算模型,通过“分而治之”思想将任务分解为Map和Reduce阶段,在多节点上并行处理。选项BSpark是内存计算框架,虽效率更高但不属于Hadoop原生组件;选项CHive是数据仓库工具,用于SQL式查询;选项DFlink是流处理框架,非Hadoop生态核心计算框架。

8、关于Spark与HadoopMapReduce相比的核心优势,以下描述正确的是?

A.基于内存计算,大幅提升数据处理速度

B.仅支持磁盘计算,适合超大规模批处理

C.仅适用于实时流处理场景,不支持批处理

D.完全依赖HDF

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档