2026年国开电大大数据技术形考题库100道学生专用.docxVIP

  • 1
  • 0
  • 约2.43万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道学生专用.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据预处理流程中,“去除重复记录”属于以下哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理步骤知识点。数据清洗阶段主要处理数据质量问题,包括去除重复记录、填补缺失值、处理异常值等;数据集成是合并多源数据,数据转换是格式转换或标准化,数据规约是减少数据规模。去除重复记录属于数据清洗环节,选A。

2、以下哪种框架主要用于实时流数据处理?

A.MapReduce

B.Spark

C.Flink

D.HBase

【答案】:C

解析:本题考察主流数据处理框架的应用场景。Flink是专门针对实时流数据处理的开源框架,支持高吞吐、低延迟的流处理任务。A选项MapReduce和B选项Spark主要用于批处理(Spark也支持流处理但非核心定位),D选项HBase是分布式NoSQL数据库,用于存储和访问海量结构化数据,因此正确答案为C。

3、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.MapReduce(计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(分布式文件系统)是Hadoop的核心存储组件,负责将海量数据分布存储在多台服务器上;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。选项A、B、D均非Hadoop的分布式存储组件,因此正确答案为C。

4、Spark作为主流大数据计算框架,其相比MapReduce的核心优势在于?

A.更适合大规模离线批处理任务

B.基于内存计算,运行速度更快

C.仅支持结构化数据处理

D.对硬件资源要求更低

【答案】:B

解析:本题考察主流大数据计算框架(SparkvsMapReduce)的技术差异知识点。Spark的核心优势是采用内存计算模式,将中间结果存储在内存而非磁盘,大幅减少IO操作,因此运行速度比MapReduce(基于磁盘的迭代计算)快数倍至数十倍。选项A错误,MapReduce更擅长传统大规模离线批处理;选项C错误,Spark支持结构化、半结构化和非结构化数据;选项D错误,Spark若全内存计算可能需要更多内存资源。因此正确答案为B。

5、大数据在医疗领域的典型应用场景是?

A.智能交通信号控制(交通领域)

B.医疗影像辅助诊断(医疗领域)

C.电商个性化推荐(电商领域)

D.社交网络舆情监控(舆情领域)

【答案】:B

解析:本题考察大数据应用场景知识点。医疗影像辅助诊断利用大数据分析医学影像数据,辅助医生提高诊断效率;A属于交通领域的智能信号控制,C属于电商的个性化推荐,D属于舆情监控领域,均非医疗典型应用。因此选B。

6、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper

【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态中负责数据分布式存储的核心组件;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务,均不符合题意,故正确答案为A。

7、在大数据分析流程中,以下哪项属于数据预处理的核心环节?

A.数据清洗(处理缺失值、异常值)

B.数据挖掘(发现数据模式)

C.模型训练(构建预测模型)

D.结果可视化(展示分析结果)

【答案】:A

解析:本题考察大数据分析流程的阶段划分。数据预处理是分析前的关键步骤,包括数据清洗(处理缺失值、异常值)、数据集成、转换和规约;数据挖掘属于分析阶段(发现模式),模型训练是挖掘后的建模步骤,结果可视化是最终展示环节。因此正确答案为A。

8、国开电大大数据技术课程中常见的企业级数据可视化与商业智能(BI)工具是?

A.Tableau

B.Python的NumPy库

C.MySQL数据库

D.Hadoop分布式框架

【答案】:A

解析:本题考察大数据可视化工具的应用。Tableau(A选项)是企业级数据可视化与BI工具,支持拖拽式分析和丰富图表展示;NumPy(B选项)是Python数值计算库,不侧重可视化;MySQL(C选项)是关系型数据库,用于数据存储而非可视化;Hadoop(D选项)是分布式计算框架,不直接用于可视化。因此正确答案为Tableau。

9、以下哪种技术适用于实时流数据处理?

A.MapRedu

文档评论(0)

1亿VIP精品文档

相关文档