2026年国开电大大数据技术概论形考题库100道含答案（黄金题型）.docxVIP

下载本文档

0
0
约2.48万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道含答案（黄金题型）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、相比Hadoop的MapReduce，ApacheSpark的显著技术优势是？

A.仅支持批处理任务，不支持流处理

B.基于内存计算，计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行，无法独立部署

【答案】：B

解析：本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算，避免了MapReduce多次磁盘IO操作，大幅提升计算速度；A错误，Spark同时支持批处理和流处理（如StructuredStreaming）；C错误，Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习；D错误，Spark可独立部署，也可与Hadoop生态集成。因此正确答案为B。

2、以下哪种大数据分析方法主要用于预测未来趋势和可能性？

A.描述性分析

B.预测性分析

C.规范性分析

D.诊断性分析

【答案】：B

解析：本题考察大数据分析方法的分类知识点。预测性分析通过算法和模型（如机器学习）对历史数据进行分析，以预测未来趋势或事件可能性；描述性分析仅总结历史数据（如统计报表），规范性分析提供行动建议（如最优决策），诊断性分析探究问题原因（如根因分析）。因此正确答案为B。

3、在大数据技术体系中，用于从海量数据中自动发现模式、规律并构建预测模型的核心技术是以下哪一项？

A.数据清洗（去除噪声和错误数据）

B.机器学习（通过算法学习数据特征）

C.数据可视化（将数据以图表等形式呈现）

D.数据存储（将数据持久化保存）

【答案】：B

解析：本题考察大数据核心技术知识点。正确答案为B，机器学习是利用算法从数据中学习模式，进而实现预测、分类等任务，是大数据挖掘潜在价值的核心技术；数据清洗是预处理步骤，数据可视化是结果呈现手段，数据存储是基础环节，均非“发现模式和规律”的核心技术。

4、MongoDB数据库主要采用以下哪种数据模型进行数据存储？

A.关系模型（如MySQL）

B.文档模型（Document）

C.键值对模型（如Redis）

D.列族模型（如HBase）

【答案】：B

解析：本题考察NoSQL数据库类型。选项A的关系模型是传统关系型数据库（如MySQL）的核心；选项B的文档模型以类似JSON的文档结构存储数据，MongoDB是典型的文档型数据库；选项C的键值对模型以‘键-值’对存储数据（如Redis）；选项D的列族模型按列存储数据（如HBase）。因此正确答案为B。

5、以下哪个工具是Apache开源的，专为大规模数据处理设计的内存计算框架，支持批处理和流处理？

A.Hadoop

B.Spark

C.Flume

D.Hive

【答案】：B

解析：本题考察大数据处理工具特性。Spark是基于内存计算的快速大数据引擎，支持批处理（如SparkSQL）和流处理（SparkStreaming）；A选项Hadoop是早期分布式计算生态，MapReduce基于磁盘且性能较低；C选项Flume是日志采集工具；D选项Hive是基于Hadoop的数据仓库工具，侧重SQL查询。正确答案为B。

6、在Hadoop生态系统中，用于实现不同数据源（如关系型数据库、文件系统）数据导入到HDFS的工具是？

A.Flume（日志采集工具）

B.Sqoop（数据导入导出工具）

C.Kafka（分布式消息队列）

D.HDFS（分布式文件系统）

【答案】：B

解析：本题考察大数据数据采集工具知识点。Sqoop是Hadoop生态系统中专门用于数据导入导出的工具，支持从关系型数据库、文件系统等数据源高效导入数据到HDFS或从HDFS导出数据。A选项Flume主要用于分布式系统日志采集；C选项Kafka是高吞吐量的消息队列，用于实时数据流传输；D选项HDFS是存储系统而非工具。因此正确答案为B。

7、在Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Spark（内存计算引擎）

【答案】：A

解析：本题考察Hadoop生态系统组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，专门用于在多台服务器上分布式存储海量数据；MapReduce是分布式计算框架，负责数据处理；YARN是资源管理器，负责集群资源调度；Spark是独立的快速计算引擎，不属于Hadoop核心组件。因此正确答案为A。

8、以下哪种数据库属于非关系型数据库（NoSQL）？

A.MySQL

B.Mon

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道含答案（黄金题型）.docxVIP