2026年国开电大大数据技术概论形考题库100道及答案(名校卷).docxVIP

  • 0
  • 0
  • 约2.51万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及答案(名校卷).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项是Hadoop生态系统中负责分布式存储的核心组件?

A.HDFS

B.MapReduce

C.Spark

D.YARN

【答案】:A

解析:本题考察Hadoop生态系统的核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;B选项MapReduce是批处理计算框架,C选项Spark是内存计算框架,D选项YARN是资源管理器,因此正确答案为A。

2、在大数据处理流程中,数据清洗的主要目的是?

A.提升数据质量

B.增加数据量

C.改变数据格式

D.提高数据存储速度

【答案】:A

解析:数据清洗是预处理关键步骤,通过处理缺失值、异常值、重复数据等‘脏数据’,去除噪声和错误信息,提升数据质量以确保后续分析准确性。B选项增加数据量非清洗目的;C选项改变格式属于数据转换阶段;D选项提高存储速度与清洗无直接关联。因此正确答案为A。

3、Hadoop生态系统中用于分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件功能。选项A的HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,用于大规模数据的分布式存储;选项B的MapReduce是分布式计算框架,负责数据处理;选项C的YARN是资源管理器,负责集群资源调度;选项D的Hive是数据仓库工具,用于数据查询与分析。因此正确答案为A。

4、以下哪个工具主要用于交互式大数据可视化分析,帮助用户快速理解数据模式和趋势?

A.Hive(数据仓库工具)

B.Tableau(可视化分析工具)

C.HDFS(分布式存储系统)

D.Kafka(消息队列系统)

【答案】:B

解析:本题考察大数据可视化工具知识点。Tableau是专业的交互式可视化分析工具,支持多种图表类型和数据钻取,可快速呈现数据模式;Hive是基于Hadoop的数据仓库工具,用于SQL查询;HDFS是分布式存储系统;Kafka是高吞吐量消息队列。因此正确答案为B。

5、以下哪项不属于大数据的5V特征?

A.容量(Volume)

B.速度(Velocity)

C.多样性(Variety)

D.复杂性(Complexity)

【答案】:D

解析:本题考察大数据5V特征知识点。大数据的5V特征包括容量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Veracity)和价值(Value),选项A、B、C均属于5V特征,而D选项“复杂性”并非5V特征之一,因此正确答案为D。

6、以下哪种数据处理方式适用于对海量历史数据进行批量分析和挖掘,如统计报表生成?

A.实时流处理

B.离线批处理

C.内存计算

D.图计算

【答案】:B

解析:离线批处理(BatchProcessing)针对大量历史数据进行周期性、批量处理,适合生成统计报表等非实时场景;实时流处理强调低延迟、实时性(如实时监控);内存计算是利用内存提升处理速度的技术,并非独立处理类型;图计算用于处理图结构数据(如社交网络分析)。因此正确答案为B。

7、在大数据分析流程中,用于处理数据中的重复记录和异常值的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察大数据预处理步骤的定义。数据清洗(A)是预处理的关键步骤,主要任务是处理数据中的噪声、重复记录、缺失值和异常值,确保数据质量;数据集成(B)是合并多源数据;数据转换(C)是对数据进行标准化、归一化等格式转换;数据归约(D)是通过聚合或降维减少数据规模。因此处理重复记录和异常值的是数据清洗,正确答案为A。

8、在大数据处理中,Spark相比MapReduce的显著优势是?

A.仅适用于批处理任务

B.采用磁盘存储中间结果

C.支持内存计算,速度更快

D.不支持实时流处理

【答案】:C

解析:本题考察Spark与MapReduce的技术对比知识点。Spark是内存计算框架,中间结果存储在内存中,大幅减少磁盘I/O,因此处理速度远快于基于磁盘的MapReduce(批处理框架),C选项正确。A选项错误,Spark同时支持批处理和流处理(如SparkStreaming);B选项错误,Spark优先使用内存而非磁盘存储;D选项错误,Spark支持实时流处理。

9、以下哪项是Hadoop分布式文件系统(HDFS)的核心功能?

A.提供分布式并行计算能力

B.存储海量数据并通过副本机制提供高容错

文档评论(0)

1亿VIP精品文档

相关文档