2026年国开电大大数据技术概论形考题库100道附完整答案【历年真题】.docxVIP

  • 0
  • 0
  • 约2.52万字
  • 约 39页
  • 2026-03-10 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道附完整答案【历年真题】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?

A.HDFS(分布式文件存储)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:C

解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的核心组件,负责集群资源的分配、调度及计算任务的管理;HDFS是分布式文件系统,用于存储数据;MapReduce是早期分布式计算框架;Hive是基于Hadoop的数据仓库工具。因此正确答案为C。

2、以下哪项不属于大数据的5V特征?

A.Volume

B.Velocity

C.Validity

D.Variety

【答案】:C

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据容量)、Velocity(处理速度)、Variety(数据多样性)、Veracity(数据真实性)和Value(数据价值)。选项C的Validity(有效性)并非5V特征之一,因此正确答案为C。

3、以下哪个是Hadoop的分布式计算框架?

A.MapReduce

B.HDFS

C.YARN

D.Spark

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统中,MapReduce是分布式计算框架,负责并行处理海量数据;HDFS是分布式文件系统(负责数据存储);YARN是资源管理器(负责集群资源调度);Spark是独立的分布式计算引擎(非Hadoop核心组件)。因此正确答案为A。

4、在大数据分析的基本流程中,‘从海量数据中提取潜在模式、关联规则或异常信息’这一环节属于以下哪个步骤?

A.数据采集(获取原始数据)

B.数据预处理(清洗、转换等)

C.数据挖掘(发现隐藏模式)

D.数据可视化(结果展示)

【答案】:C

解析:本题考察大数据分析的核心流程环节。A选项数据采集是第一步,主要是从多个来源(如数据库、日志、传感器)获取原始数据;B选项数据预处理是对采集的数据进行清洗、去重、格式转换等操作,为后续分析做准备;C选项数据挖掘是大数据分析的核心环节,通过算法从海量数据中提取潜在的、有价值的模式(如关联规则、聚类结果)或异常信息;D选项数据可视化是将分析结果以图表等形式直观展示的步骤。因此正确答案为C。

5、以下哪项不属于大数据在商业领域的典型应用?

A.基于用户行为数据的精准营销

B.通过用户画像实现个性化推荐

C.利用历史销售数据进行市场趋势预测

D.传统纸质文档的人工分类与存储管理

【答案】:D

解析:本题考察大数据应用场景知识点。大数据在商业领域的典型应用包括精准营销(A)、个性化推荐(B)、市场趋势预测(C)等,均依赖数据驱动决策;D选项是传统人工管理,未涉及大数据技术的应用,因此不属于大数据典型应用。正确答案为D。

6、以下哪项是大数据区别于传统数据处理的典型特征?

A.数据量小

B.数据多样性

C.处理速度慢

D.数据结构化程度高

【答案】:B

解析:本题考察大数据的核心特征。大数据的典型特征包括数据量大(Volume)、数据多样性(Variety,如文本、图像、日志等非结构化/半结构化数据)、处理速度快(Velocity)等。A选项“数据量小”是传统数据的特征;C选项“处理速度慢”不符合大数据实时/近实时处理需求;D选项“数据结构化程度高”不准确,大数据包含大量非结构化数据。正确答案为B。

7、下列哪种工具常用于实时或准实时的分布式日志收集与聚合?

A.Flume(日志收集框架)

B.Sqoop(数据导入导出工具)

C.Kafka(分布式消息队列)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察大数据数据采集工具的功能,正确答案为A。Flume是Cloudera开源的分布式日志收集系统,支持多数据源(如日志文件、数据库)的实时聚合与传输,具备高可用和可扩展性;B选项Sqoop主要用于Hadoop与关系型数据库间的数据批量导入导出;C选项Kafka是高吞吐量的分布式消息系统,侧重消息传递而非直接日志聚合;D选项Hive是基于Hadoop的SQL数据仓库工具,与日志收集无关。因此A选项正确。

8、以下哪种数据处理方式适用于对海量历史数据进行批量分析和挖掘,如统计报表生成?

A.实时流处理

B.离线批处理

C.内存计算

D.图计算

【答案】:B

解析:离线批处理(BatchProcessing)针对大量历史数据进行周期性、批量处理,适合生成统计报表等非实时场景;实时流处理强调低延迟、实时性(如实时监控);内存计

文档评论(0)

1亿VIP精品文档

相关文档