2026年国开电大大数据技术形考题库100道含答案【培优】.docxVIP

下载本文档

0
0
约2.54万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道含答案【培优】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、K-Means算法在数据挖掘中属于以下哪种类型？

A.分类算法

B.聚类算法

C.关联规则挖掘算法

D.回归算法

【答案】：B

解析：本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法，通过最小化簇内距离将数据自动划分为不同簇（Cluster）；A选项分类算法（如决策树、SVM）需标注训练数据类别，属于监督学习；C选项关联规则挖掘（如Apriori）用于发现数据项间的关联关系；D选项回归算法（如线性回归）用于预测连续数值。因此正确答案为B。

2、在大数据处理流程中，“去除重复数据、处理缺失值、修正异常值”属于以下哪个步骤？

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】：B

解析：本题考察大数据预处理步骤的定义。数据清洗（B选项）的主要目的是处理数据质量问题，包括去除重复记录、填补缺失值、修正异常值等；数据集成（A选项）是合并多源数据；数据转换（C选项）是对数据格式或结构进行标准化处理；数据规约（D选项）是通过降维等方式减少数据规模。因此正确步骤为数据清洗。

3、以下哪一项不属于大数据的4V特征？

A.Velocity

B.Variety

C.Variability

D.Volume

【答案】：C

解析：本题考察大数据的核心特征（4V）知识点。大数据的4V特征通常指Volume（数据量）、Velocity（数据产生速度）、Variety（数据多样性）、Value（数据价值），而Variability（可变性）并非大数据4V特征的标准组成部分。因此正确答案为C。

4、以下哪种技术适用于实时流数据处理？

A.MapReduce（批处理框架）

B.SparkStreaming（流处理框架）

C.Hive（数据仓库工具）

D.HBase（分布式NoSQL数据库）

【答案】：B

解析：本题考察大数据处理技术应用场景知识点。SparkStreaming是专为实时流数据设计的框架，可对持续产生的数据流进行毫秒级或秒级实时分析；A选项MapReduce是经典批处理框架，适用于离线海量数据计算；C选项Hive基于批处理引擎（如MapReduce），主要用于离线数据分析；D选项HBase是分布式数据库，用于存储非结构化数据而非处理流数据。因此正确答案为B。

5、关于数据仓库与数据集市的区别，以下描述正确的是？

A.数据仓库仅存储汇总数据，数据集市仅存储细节数据

B.数据仓库面向企业级全局数据，数据集市面向部门级局部数据

C.数据仓库只能由技术人员访问，数据集市仅对业务部门开放

D.数据仓库必须采用NoSQL数据库，数据集市仅使用关系型数据库

【答案】：B

解析：本题考察数据仓库与数据集市的核心区别。数据仓库是面向企业级的综合数据存储，数据集市是数据仓库的子集，面向部门级需求（如销售、财务等）；A错误，数据仓库既包含细节数据也包含汇总数据；C错误，两者均可被多角色访问；D错误，两者均可采用关系型/非关系型数据库。因此正确答案为B。

6、在大数据处理流程中，对数据进行清洗（处理缺失值、异常值）、去重等操作属于哪个阶段？

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】：B

解析：本题考察数据预处理阶段知识点。数据预处理包含四个核心环节：数据清洗（处理缺失值、异常值、去重等脏数据问题）、数据集成（合并多源数据）、数据转换（格式转换、标准化等）、数据规约（降维、采样减少数据规模）。题目中描述的操作属于数据清洗阶段，其他选项均为不同预处理环节。

7、在大数据数据预处理流程中，用于处理数据缺失值、异常值的关键步骤是？

A.数据清洗

B.数据集成

C.数据变换

D.数据规约

【答案】：A

解析：本题考察大数据数据预处理步骤知识点。数据清洗是预处理的核心步骤，主要负责处理数据中的缺失值、异常值、重复值等问题；B选项数据集成是合并多个数据源；C选项数据变换是对数据格式、类型等进行转换；D选项数据规约是通过降维、压缩等方式减少数据规模。因此正确答案为A。

8、Spark与传统MapReduce相比，显著的性能优势主要得益于？

A.基于内存计算

B.使用磁盘存储数据

C.仅支持批处理任务

D.单节点并行计算

【答案】：A

解析：Spark采用内存计算模型，将中间数据存储在内存中，大幅减少磁盘IO操作，而MapReduce依赖磁盘读写中间结果，导致Spark处理速度更快；Spark支持内存+磁盘混合存储，并非仅用磁盘；Spark支持批处理、流处理等多种任务，且是分布式并行计算框架，非单节点。因此A正确。

2026年国开电大大数据技术形考题库100道含答案【培优】.docxVIP

2026年国开电大大数据技术形考题库100道含答案【培优】.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档