2026年国开电大大数据技术概论形考题库100道含完整答案【网校专用】.docxVIP

  • 1
  • 0
  • 约2.5万字
  • 约 39页
  • 2026-03-09 发布于山东
  • 举报

2026年国开电大大数据技术概论形考题库100道含完整答案【网校专用】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、MapReduce编程模型中,“Map”阶段的主要作用是?

A.将数据按键值对进行聚合计算

B.将大任务分解为多个小任务并行处理

C.对数据进行清洗和预处理

D.负责任务调度和资源分配

【答案】:B

解析:本题考察MapReduce编程模型知识点。MapReduce分为Map和Reduce两个阶段:Map阶段负责将输入数据分解为独立的小任务并并行处理,生成中间键值对;Reduce阶段负责对Map输出的中间结果按键聚合计算。选项A是Reduce阶段的部分功能,选项C不属于Map阶段核心作用,选项D是YARN的资源管理器功能。因此正确答案为B。

2、用于实时日志数据采集的工具是?

A.Sqoop

B.Flume

C.Kafka

D.Hive

【答案】:B

解析:本题考察大数据数据采集工具知识点。Flume是专门用于实时日志数据采集的工具,支持高可用、高可靠的日志收集;A选项Sqoop主要用于数据导入导出(如关系数据库与Hadoop间),C选项Kafka是高吞吐量的消息队列系统,D选项Hive是数据仓库工具,因此正确答案为B。

3、相比Hadoop的MapReduce,ApacheSpark的显著技术优势是?

A.仅支持批处理任务,不支持流处理

B.基于内存计算,计算速度更快

C.不支持SQL查询和机器学习算法

D.必须依赖HDFS才能运行,无法独立部署

【答案】:B

解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算,避免了MapReduce多次磁盘IO操作,大幅提升计算速度;A错误,Spark同时支持批处理和流处理(如StructuredStreaming);C错误,Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习;D错误,Spark可独立部署,也可与Hadoop生态集成。因此正确答案为B。

4、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.MapReduce(计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统组件功能知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的核心分布式文件系统,专门负责海量数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具,均不负责数据存储。因此正确答案为C。

5、以下哪种数据类型属于大数据中的非结构化数据?

A.关系型数据库表中的数据

B.服务器日志文件中的原始数据

C.Excel表格中的结构化数据

D.JSON格式存储的半结构化数据

【答案】:B

解析:本题考察大数据数据类型分类知识点。非结构化数据指无固定数据结构、难以用二维表表示的数据,如日志文件、图片、音频等;A选项为结构化数据(关系型数据库表),C选项为典型结构化数据,D选项JSON属于半结构化数据。服务器日志文件通常无固定格式,属于非结构化数据,因此正确答案为B。

6、以下哪项属于大数据数据挖掘的典型应用?

A.对某电商平台用户历史订单数据进行统计描述

B.利用机器学习算法对客户数据进行分类,识别潜在高价值客户

C.对企业内部财务报表数据进行录入和整理

D.使用Excel对销售数据进行简单求和计算

【答案】:B

解析:本题考察数据挖掘应用知识点。数据挖掘是从大量数据中提取隐含、未知、有价值信息的过程。选项A是基础统计描述,属于数据分析;选项C是数据录入,不属于挖掘;选项D是简单计算,也不属于挖掘。选项B通过机器学习算法对客户数据分类,符合数据挖掘的定义,因此正确答案为B。

7、Hadoop分布式文件系统的英文缩写是?

A.HDFS

B.MapReduce

C.YARN

D.Spark

【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是Hadoop的核心计算模型,YARN是资源管理器,Spark是独立的内存计算框架(不属于Hadoop核心组件)。因此正确答案为A。

8、Hadoop生态系统中,负责分布式并行计算的核心框架是?

A.MapReduce

B.Spark

C.Hive

D.Flink

【答案】:A

解析:本题考察大数据计算框架知识点。MapReduce是Hadoop生态系统中经典的分布式并行计算模型,通过“分而治之”思想将任务分解为M

文档评论(0)

1亿VIP精品文档

相关文档