2026年国开电大大数据技术形考题库100道附参考答案【基础题】.docxVIP

  • 0
  • 0
  • 约2.5万字
  • 约 39页
  • 2026-03-10 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附参考答案【基础题】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、大数据的5V特征中,描述数据价值密度低的特征是以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Value(价值密度高)

【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(价值密度低)、Veracity(数据真实性)。选项D中“价值密度高”与大数据实际特征不符,大数据中大部分数据原始价值密度低,需通过挖掘分析提升价值,因此正确答案为D。

2、以下哪项不属于大数据的4V核心特征?

A.Veracity(真实性)

B.Volume(规模)

C.Velocity(速度)

D.Variety(多样性)

【答案】:A

解析:本题考察大数据4V特征知识点。大数据的4V标准定义为Volume(数据规模)、Velocity(数据产生和处理速度)、Variety(数据类型多样性)、Value(数据价值密度)。Veracity(数据真实性)通常是扩展的“5V”特征之一,不属于4V核心定义,因此答案为A。

3、在大数据预处理流程中,去除数据中的重复记录、填补缺失值属于哪个步骤?

A.数据清洗(处理脏数据)

B.数据集成(合并多源数据)

C.数据转换(格式与特征转换)

D.数据规约(降维与特征选择)

【答案】:A

解析:本题考察大数据预处理步骤的定义。数据预处理是数据质量提升的关键环节,各步骤功能如下:数据清洗(处理噪声、缺失值、重复记录等“脏数据”)、数据集成(合并不同数据源)、数据转换(如归一化、编码转换)、数据规约(减少数据规模但保留核心信息)。去除重复记录和填补缺失值属于数据清洗的典型操作,因此答案为A。

4、适用于实时分析用户行为数据流(如电商实时推荐)的大数据处理方式是?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.分布式计算(DistributedComputing)

D.并行计算(ParallelComputing)

【答案】:B

解析:本题考察大数据处理技术类型的应用场景。批处理(A选项)适用于离线、批量数据处理(如T+1报表生成);流处理(B选项)支持实时处理持续产生的数据流,能满足实时分析需求;分布式计算(C选项)和并行计算(D选项)是计算模式,而非专门针对实时流数据的处理方式。因此实时用户行为分析应采用流处理。

5、以下关于数据集市的描述,正确的是?

A.数据集市是企业级统一的数据集合

B.数据集市通常面向特定业务部门或用户群体

C.数据集市的数据仅来源于单一业务系统

D.数据集市的存储结构与数据仓库完全独立

【答案】:B

解析:本题考察数据集市与数据仓库的区别。数据集市是面向部门级或特定业务需求的小型数据集合,通常从数据仓库中抽取数据;数据仓库才是企业级统一数据集合(排除A);数据集市的数据可来源于数据仓库(排除C);数据集市的存储结构与数据仓库类似但规模更小(排除D)。因此正确答案为B。

6、在大数据处理流程中,以下哪项不属于数据预处理阶段?

A.数据清洗

B.数据集成

C.数据存储

D.数据转换

【答案】:C

解析:本题考察大数据处理流程中数据预处理阶段知识点,数据预处理通常包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换、标准化)等操作;而数据存储属于数据处理后的持久化环节,不属于预处理阶段,因此正确答案为C。

7、关于数据仓库与数据湖的区别,以下说法正确的是?

A.数据仓库仅存储结构化数据,数据湖可存储多种类型数据

B.数据仓库存储实时数据,数据湖仅存储历史数据

C.数据仓库适合实时分析,数据湖适合离线批处理分析

D.数据仓库和数据湖本质上没有区别,仅为名称差异

【答案】:A

解析:本题考察数据仓库与数据湖的核心概念。数据仓库通常基于结构化数据,面向分析场景,经过清洗和整合;数据湖则是原始数据集合,支持存储结构化、半结构化和非结构化数据,保留原始数据形态。B选项错误,两者均可存储实时和历史数据;C选项错误,两者均支持实时或批处理分析;D选项错误,两者在数据存储方式、应用场景上有本质区别。因此正确答案为A。

8、以下哪种数据挖掘算法属于无监督学习中的聚类算法?

A.决策树

B.K-Means

C.线性回归

D.Apriori

【答案】:B

解析:本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法,通过距离度量将数据自动分组为不同簇;决策树常用于分类任务(有监督),线性回归用于回

文档评论(0)

1亿VIP精品文档

相关文档