2026年国开电大大数据技术形考题库100道含答案【培优】.docxVIP

  • 0
  • 0
  • 约2.54万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道含答案【培优】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、K-Means算法在数据挖掘中属于以下哪种类型?

A.分类算法

B.聚类算法

C.关联规则挖掘算法

D.回归算法

【答案】:B

解析:本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法,通过最小化簇内距离将数据自动划分为不同簇(Cluster);A选项分类算法(如决策树、SVM)需标注训练数据类别,属于监督学习;C选项关联规则挖掘(如Apriori)用于发现数据项间的关联关系;D选项回归算法(如线性回归)用于预测连续数值。因此正确答案为B。

2、在大数据处理流程中,“去除重复数据、处理缺失值、修正异常值”属于以下哪个步骤?

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】:B

解析:本题考察大数据预处理步骤的定义。数据清洗(B选项)的主要目的是处理数据质量问题,包括去除重复记录、填补缺失值、修正异常值等;数据集成(A选项)是合并多源数据;数据转换(C选项)是对数据格式或结构进行标准化处理;数据规约(D选项)是通过降维等方式减少数据规模。因此正确步骤为数据清洗。

3、以下哪一项不属于大数据的4V特征?

A.Velocity

B.Variety

C.Variability

D.Volume

【答案】:C

解析:本题考察大数据的核心特征(4V)知识点。大数据的4V特征通常指Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)、Value(数据价值),而Variability(可变性)并非大数据4V特征的标准组成部分。因此正确答案为C。

4、以下哪种技术适用于实时流数据处理?

A.MapReduce(批处理框架)

B.SparkStreaming(流处理框架)

C.Hive(数据仓库工具)

D.HBase(分布式NoSQL数据库)

【答案】:B

解析:本题考察大数据处理技术应用场景知识点。SparkStreaming是专为实时流数据设计的框架,可对持续产生的数据流进行毫秒级或秒级实时分析;A选项MapReduce是经典批处理框架,适用于离线海量数据计算;C选项Hive基于批处理引擎(如MapReduce),主要用于离线数据分析;D选项HBase是分布式数据库,用于存储非结构化数据而非处理流数据。因此正确答案为B。

5、关于数据仓库与数据集市的区别,以下描述正确的是?

A.数据仓库仅存储汇总数据,数据集市仅存储细节数据

B.数据仓库面向企业级全局数据,数据集市面向部门级局部数据

C.数据仓库只能由技术人员访问,数据集市仅对业务部门开放

D.数据仓库必须采用NoSQL数据库,数据集市仅使用关系型数据库

【答案】:B

解析:本题考察数据仓库与数据集市的核心区别。数据仓库是面向企业级的综合数据存储,数据集市是数据仓库的子集,面向部门级需求(如销售、财务等);A错误,数据仓库既包含细节数据也包含汇总数据;C错误,两者均可被多角色访问;D错误,两者均可采用关系型/非关系型数据库。因此正确答案为B。

6、在大数据处理流程中,对数据进行清洗(处理缺失值、异常值)、去重等操作属于哪个阶段?

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】:B

解析:本题考察数据预处理阶段知识点。数据预处理包含四个核心环节:数据清洗(处理缺失值、异常值、去重等脏数据问题)、数据集成(合并多源数据)、数据转换(格式转换、标准化等)、数据规约(降维、采样减少数据规模)。题目中描述的操作属于数据清洗阶段,其他选项均为不同预处理环节。

7、在大数据数据预处理流程中,用于处理数据缺失值、异常值的关键步骤是?

A.数据清洗

B.数据集成

C.数据变换

D.数据规约

【答案】:A

解析:本题考察大数据数据预处理步骤知识点。数据清洗是预处理的核心步骤,主要负责处理数据中的缺失值、异常值、重复值等问题;B选项数据集成是合并多个数据源;C选项数据变换是对数据格式、类型等进行转换;D选项数据规约是通过降维、压缩等方式减少数据规模。因此正确答案为A。

8、Spark与传统MapReduce相比,显著的性能优势主要得益于?

A.基于内存计算

B.使用磁盘存储数据

C.仅支持批处理任务

D.单节点并行计算

【答案】:A

解析:Spark采用内存计算模型,将中间数据存储在内存中,大幅减少磁盘IO操作,而MapReduce依赖磁盘读写中间结果,导致Spark处理速度更快;Spark支持内存+磁盘混合存储,并非仅用磁盘;Spark支持批处理、流处理等多种任务,且是分布式并行计算框架,非单节点。因此A正确。

9、大数据处理中,构建分布式计算集群最常用的云计算服

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档