2026年国开电大大数据技术形考题库100道及参考答案【突破训练】.docxVIP

  • 0
  • 0
  • 约2.43万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及参考答案【突破训练】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据处理中,构建分布式计算集群最常用的云计算服务模式是?

A.IaaS(基础设施即服务)

B.PaaS(平台即服务)

C.SaaS(软件即服务)

D.混合云(混合部署模式)

【答案】:A

解析:本题考察大数据与云计算服务模式的关系知识点。IaaS(A选项)提供服务器、存储、网络等基础设施资源,适合部署Hadoop等分布式计算集群;PaaS(B选项)提供开发运行平台,适合快速开发应用但灵活性不足;SaaS(C选项)是直接提供软件应用,无法满足大数据底层硬件需求;混合云(D选项)是云服务部署模式,非服务类型。因此正确答案为A。

2、Spark作为大数据处理框架,其相比HadoopMapReduce的显著优势在于?

A.支持内存计算,处理速度更快

B.仅适用于批处理任务

C.只能运行在HDFS之上

D.不支持实时数据处理

【答案】:A

解析:本题考察Spark与MapReduce的对比知识点。Spark的核心优势是支持内存计算,减少磁盘IO,因此处理速度远快于基于磁盘的MapReduce;选项B错误,Spark既支持批处理也支持流处理(SparkStreaming);选项C错误,Spark可运行在多种存储系统(如HDFS、S3、Cassandra等);选项D错误,SparkStreaming支持实时数据处理。

3、关于数据仓库与数据湖的区别,以下描述正确的是?

A.数据仓库仅存储结构化数据,数据湖支持多类型原始数据

B.数据仓库支持实时分析,数据湖仅支持离线分析

C.数据仓库的数据更新速度快,数据湖的数据存储格式单一

D.数据仓库适合非结构化数据,数据湖适合结构化数据

【答案】:A

解析:本题考察数据仓库与数据湖的核心差异。数据仓库是面向分析的结构化数据存储,而数据湖是存储原始数据(结构化、半结构化、非结构化)的集中平台,支持多种数据类型(如文本、图像、日志)。B选项错误,数据湖通过Flink等工具可支持实时分析;C选项错误,数据湖的数据更新速度通常更快(原始数据实时写入),且支持多种存储格式;D选项错误,数据仓库适合结构化数据,数据湖适合原始多类型数据。因此A选项描述准确。

4、以下哪种算法属于大数据分析中的监督学习?

A.K-Means

B.线性回归

C.PCA

D.Apriori

【答案】:B

解析:本题考察大数据分析中的监督学习知识点。监督学习需要有标签的训练数据,线性回归通过已知特征与标签的映射关系进行预测,属于监督学习;K-Means是无监督聚类算法,PCA是无监督降维算法,Apriori是无监督关联规则挖掘算法。因此正确答案为B。

5、以下哪项不属于常用的大数据可视化工具?

A.Tableau

B.PowerBI

C.Hadoop

D.ECharts

【答案】:C

解析:本题考察大数据可视化工具知识点,Tableau和PowerBI是专业商业智能可视化工具,ECharts是基于JavaScript的前端可视化库;而Hadoop是分布式计算与存储框架,不属于可视化工具,因此正确答案为C。

6、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Hive

【答案】:C

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是数据仓库工具。因此负责分布式存储的核心组件是HDFS,选C。

7、在大数据预处理过程中,以下哪项操作不属于数据清洗阶段?

A.处理缺失值

B.数据集成

C.去除重复记录

D.处理异常值

【答案】:B

解析:本题考察数据预处理的阶段知识点。数据清洗主要针对原始数据中的噪声、缺失值、重复记录、异常值等进行处理;而“数据集成”是将多个数据源合并为统一数据集的操作,属于数据预处理的“数据集成”阶段,与“数据清洗”并列,因此不属于数据清洗阶段,正确答案为B。

8、在大数据处理流程中,以下哪个步骤主要用于处理数据中的缺失值、异常值和重复值?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理步骤知识点。数据清洗的核心任务是处理数据质量问题,包括缺失值填充、异常值修正、重复值删除等;数据集成是合并多源数据,数据转换是调整数据格式,数据规约是降低数据规模。因此正确答案为A。

9、以下哪一项不属于大数据的4V特征?

A.Velocity

B.Variety

C.

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档