2026年国开电大大数据技术概论形考题库100道含答案(黄金题型).docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道含答案(黄金题型).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、相比Hadoop的MapReduce,ApacheSpark的显著技术优势是?

A.仅支持批处理任务,不支持流处理

B.基于内存计算,计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行,无法独立部署

【答案】:B

解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算,避免了MapReduce多次磁盘IO操作,大幅提升计算速度;A错误,Spark同时支持批处理和流处理(如StructuredStreaming);C错误,Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习;D错误,Spark可独立部署,也可与Hadoop生态集成。因此正确答案为B。

2、以下哪种大数据分析方法主要用于预测未来趋势和可能性?

A.描述性分析

B.预测性分析

C.规范性分析

D.诊断性分析

【答案】:B

解析:本题考察大数据分析方法的分类知识点。预测性分析通过算法和模型(如机器学习)对历史数据进行分析,以预测未来趋势或事件可能性;描述性分析仅总结历史数据(如统计报表),规范性分析提供行动建议(如最优决策),诊断性分析探究问题原因(如根因分析)。因此正确答案为B。

3、在大数据技术体系中,用于从海量数据中自动发现模式、规律并构建预测模型的核心技术是以下哪一项?

A.数据清洗(去除噪声和错误数据)

B.机器学习(通过算法学习数据特征)

C.数据可视化(将数据以图表等形式呈现)

D.数据存储(将数据持久化保存)

【答案】:B

解析:本题考察大数据核心技术知识点。正确答案为B,机器学习是利用算法从数据中学习模式,进而实现预测、分类等任务,是大数据挖掘潜在价值的核心技术;数据清洗是预处理步骤,数据可视化是结果呈现手段,数据存储是基础环节,均非“发现模式和规律”的核心技术。

4、MongoDB数据库主要采用以下哪种数据模型进行数据存储?

A.关系模型(如MySQL)

B.文档模型(Document)

C.键值对模型(如Redis)

D.列族模型(如HBase)

【答案】:B

解析:本题考察NoSQL数据库类型。选项A的关系模型是传统关系型数据库(如MySQL)的核心;选项B的文档模型以类似JSON的文档结构存储数据,MongoDB是典型的文档型数据库;选项C的键值对模型以‘键-值’对存储数据(如Redis);选项D的列族模型按列存储数据(如HBase)。因此正确答案为B。

5、以下哪个工具是Apache开源的,专为大规模数据处理设计的内存计算框架,支持批处理和流处理?

A.Hadoop

B.Spark

C.Flume

D.Hive

【答案】:B

解析:本题考察大数据处理工具特性。Spark是基于内存计算的快速大数据引擎,支持批处理(如SparkSQL)和流处理(SparkStreaming);A选项Hadoop是早期分布式计算生态,MapReduce基于磁盘且性能较低;C选项Flume是日志采集工具;D选项Hive是基于Hadoop的数据仓库工具,侧重SQL查询。正确答案为B。

6、在Hadoop生态系统中,用于实现不同数据源(如关系型数据库、文件系统)数据导入到HDFS的工具是?

A.Flume(日志采集工具)

B.Sqoop(数据导入导出工具)

C.Kafka(分布式消息队列)

D.HDFS(分布式文件系统)

【答案】:B

解析:本题考察大数据数据采集工具知识点。Sqoop是Hadoop生态系统中专门用于数据导入导出的工具,支持从关系型数据库、文件系统等数据源高效导入数据到HDFS或从HDFS导出数据。A选项Flume主要用于分布式系统日志采集;C选项Kafka是高吞吐量的消息队列,用于实时数据流传输;D选项HDFS是存储系统而非工具。因此正确答案为B。

7、在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Spark(内存计算引擎)

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于在多台服务器上分布式存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Spark是独立的快速计算引擎,不属于Hadoop核心组件。因此正确答案为A。

8、以下哪种数据库属于非关系型数据库(NoSQL)?

A.MySQL

B.Mon

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档