2026年国开电大大数据技术形考题库100道附参考答案【基础题】.docxVIP

下载本文档

0
0
约2.5万字
约 39页
2026-03-10 发布于河南
举报

2026年国开电大大数据技术形考题库100道附参考答案【基础题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的5V特征中，描述数据价值密度低的特征是以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Variety（多样性）

D.Value（价值密度高）

【答案】：D

解析：本题考察大数据的5V特征知识点。大数据的5V特征包括Volume（数据量大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（价值密度低）、Veracity（数据真实性）。选项D中“价值密度高”与大数据实际特征不符，大数据中大部分数据原始价值密度低，需通过挖掘分析提升价值，因此正确答案为D。

2、以下哪项不属于大数据的4V核心特征？

A.Veracity（真实性）

B.Volume（规模）

C.Velocity（速度）

D.Variety（多样性）

【答案】：A

解析：本题考察大数据4V特征知识点。大数据的4V标准定义为Volume（数据规模）、Velocity（数据产生和处理速度）、Variety（数据类型多样性）、Value（数据价值密度）。Veracity（数据真实性）通常是扩展的“5V”特征之一，不属于4V核心定义，因此答案为A。

3、在大数据预处理流程中，去除数据中的重复记录、填补缺失值属于哪个步骤？

A.数据清洗（处理脏数据）

B.数据集成（合并多源数据）

C.数据转换（格式与特征转换）

D.数据规约（降维与特征选择）

【答案】：A

解析：本题考察大数据预处理步骤的定义。数据预处理是数据质量提升的关键环节，各步骤功能如下：数据清洗（处理噪声、缺失值、重复记录等“脏数据”）、数据集成（合并不同数据源）、数据转换（如归一化、编码转换）、数据规约（减少数据规模但保留核心信息）。去除重复记录和填补缺失值属于数据清洗的典型操作，因此答案为A。

4、适用于实时分析用户行为数据流（如电商实时推荐）的大数据处理方式是？

A.批处理（BatchProcessing）

B.流处理（StreamProcessing）

C.分布式计算（DistributedComputing）

D.并行计算（ParallelComputing）

【答案】：B

解析：本题考察大数据处理技术类型的应用场景。批处理（A选项）适用于离线、批量数据处理（如T+1报表生成）；流处理（B选项）支持实时处理持续产生的数据流，能满足实时分析需求；分布式计算（C选项）和并行计算（D选项）是计算模式，而非专门针对实时流数据的处理方式。因此实时用户行为分析应采用流处理。

5、以下关于数据集市的描述，正确的是？

A.数据集市是企业级统一的数据集合

B.数据集市通常面向特定业务部门或用户群体

C.数据集市的数据仅来源于单一业务系统

D.数据集市的存储结构与数据仓库完全独立

【答案】：B

解析：本题考察数据集市与数据仓库的区别。数据集市是面向部门级或特定业务需求的小型数据集合，通常从数据仓库中抽取数据；数据仓库才是企业级统一数据集合（排除A）；数据集市的数据可来源于数据仓库（排除C）；数据集市的存储结构与数据仓库类似但规模更小（排除D）。因此正确答案为B。

6、在大数据处理流程中，以下哪项不属于数据预处理阶段？

A.数据清洗

B.数据集成

C.数据存储

D.数据转换

【答案】：C

解析：本题考察大数据处理流程中数据预处理阶段知识点，数据预处理通常包括数据清洗（处理缺失值、异常值）、数据集成（合并多源数据）、数据转换（格式转换、标准化）等操作；而数据存储属于数据处理后的持久化环节，不属于预处理阶段，因此正确答案为C。

7、关于数据仓库与数据湖的区别，以下说法正确的是？

A.数据仓库仅存储结构化数据，数据湖可存储多种类型数据

B.数据仓库存储实时数据，数据湖仅存储历史数据

C.数据仓库适合实时分析，数据湖适合离线批处理分析

D.数据仓库和数据湖本质上没有区别，仅为名称差异

【答案】：A

解析：本题考察数据仓库与数据湖的核心概念。数据仓库通常基于结构化数据，面向分析场景，经过清洗和整合；数据湖则是原始数据集合，支持存储结构化、半结构化和非结构化数据，保留原始数据形态。B选项错误，两者均可存储实时和历史数据；C选项错误，两者均支持实时或批处理分析；D选项错误，两者在数据存储方式、应用场景上有本质区别。因此正确答案为A。

8、以下哪种数据挖掘算法属于无监督学习中的聚类算法？

A.决策树

B.K-Means

C.线性回归

D.Apriori

【答案】：B

解析：本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法，通过距离度量将数据自动分组为不同簇；决策树常用于分类任务（有监督），线性回归用于回

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附参考答案【基础题】.docxVIP