2026年国开电大大数据技术概论形考题库100道含完整答案【网校专用】.docxVIP

下载本文档

1
0
约2.5万字
约 39页
2026-03-09 发布于山东
举报

2026年国开电大大数据技术概论形考题库100道含完整答案【网校专用】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、MapReduce编程模型中，“Map”阶段的主要作用是？

A.将数据按键值对进行聚合计算

B.将大任务分解为多个小任务并行处理

C.对数据进行清洗和预处理

D.负责任务调度和资源分配

【答案】：B

解析：本题考察MapReduce编程模型知识点。MapReduce分为Map和Reduce两个阶段：Map阶段负责将输入数据分解为独立的小任务并并行处理，生成中间键值对；Reduce阶段负责对Map输出的中间结果按键聚合计算。选项A是Reduce阶段的部分功能，选项C不属于Map阶段核心作用，选项D是YARN的资源管理器功能。因此正确答案为B。

2、用于实时日志数据采集的工具是？

A.Sqoop

B.Flume

C.Kafka

D.Hive

【答案】：B

解析：本题考察大数据数据采集工具知识点。Flume是专门用于实时日志数据采集的工具，支持高可用、高可靠的日志收集；A选项Sqoop主要用于数据导入导出（如关系数据库与Hadoop间），C选项Kafka是高吞吐量的消息队列系统，D选项Hive是数据仓库工具，因此正确答案为B。

3、相比Hadoop的MapReduce，ApacheSpark的显著技术优势是？

A.仅支持批处理任务，不支持流处理

B.基于内存计算，计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行，无法独立部署

【答案】：B

解析：本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算，避免了MapReduce多次磁盘IO操作，大幅提升计算速度；A错误，Spark同时支持批处理和流处理（如StructuredStreaming）；C错误，Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习；D错误，Spark可独立部署，也可与Hadoop生态集成。因此正确答案为B。

4、Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.MapReduce（计算框架）

B.YARN（资源管理器）

C.HDFS（分布式文件系统）

D.Hive（数据仓库工具）

【答案】：C

解析：本题考察Hadoop生态系统组件功能知识点。HDFS（HadoopDistributedFileSystem）是Hadoop的核心分布式文件系统，专门负责海量数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Hive是基于Hadoop的数据仓库工具，均不负责数据存储。因此正确答案为C。

5、以下哪种数据类型属于大数据中的非结构化数据？

A.关系型数据库表中的数据

B.服务器日志文件中的原始数据

C.Excel表格中的结构化数据

D.JSON格式存储的半结构化数据

【答案】：B

解析：本题考察大数据数据类型分类知识点。非结构化数据指无固定数据结构、难以用二维表表示的数据，如日志文件、图片、音频等；A选项为结构化数据（关系型数据库表），C选项为典型结构化数据，D选项JSON属于半结构化数据。服务器日志文件通常无固定格式，属于非结构化数据，因此正确答案为B。

6、以下哪项属于大数据数据挖掘的典型应用？

A.对某电商平台用户历史订单数据进行统计描述

B.利用机器学习算法对客户数据进行分类，识别潜在高价值客户

C.对企业内部财务报表数据进行录入和整理

D.使用Excel对销售数据进行简单求和计算

【答案】：B

解析：本题考察数据挖掘应用知识点。数据挖掘是从大量数据中提取隐含、未知、有价值信息的过程。选项A是基础统计描述，属于数据分析；选项C是数据录入，不属于挖掘；选项D是简单计算，也不属于挖掘。选项B通过机器学习算法对客户数据分类，符合数据挖掘的定义，因此正确答案为B。

7、Hadoop分布式文件系统的英文缩写是？

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】：A

解析：本题考察Hadoop核心组件知识点。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，用于存储海量数据；MapReduce是Hadoop的核心计算模型，YARN是资源管理器，Spark是独立的内存计算框架（不属于Hadoop核心组件）。因此正确答案为A。

8、Hadoop生态系统中，负责分布式并行计算的核心框架是？

A.MapReduce

B.Spark

C.Hive

D.Flink

【答案】：A

解析：本题考察大数据计算框架知识点。MapReduce是Hadoop生态系统中经典的分布式并行计算模型，通过“分而治之”思想将任务分解为M

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道含完整答案【网校专用】.docxVIP