2026年国开电大大数据技术形考题库100道必考题.docxVIP

  • 0
  • 0
  • 约2.45万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道必考题.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据分析流程中,数据清洗的主要目的是?

A.提高数据质量以保障分析结果准确性

B.快速增加数据集的样本量

C.降低数据处理过程中的计算速度

D.减少数据维度以简化分析模型

【答案】:A

解析:本题考察数据预处理的核心目的。数据清洗通过处理缺失值、异常值、重复值等,去除噪声并提升数据质量,从而保障后续分析结果的准确性。选项B“增加样本量”不属于清洗范畴,C“降低速度”与清洗目的相悖,D“减少维度”属于特征选择,因此正确答案为A。

2、在大数据处理流程中,“去除重复数据、处理缺失值、修正异常值”属于以下哪个步骤?

A.数据集成

B.数据清洗

C.数据转换

D.数据规约

【答案】:B

解析:本题考察大数据预处理步骤的定义。数据清洗(B选项)的主要目的是处理数据质量问题,包括去除重复记录、填补缺失值、修正异常值等;数据集成(A选项)是合并多源数据;数据转换(C选项)是对数据格式或结构进行标准化处理;数据规约(D选项)是通过降维等方式减少数据规模。因此正确步骤为数据清洗。

3、以下哪项不属于大数据的4V特征?

A.Volume(数据量)

B.Velocity(速度)

C.Variety(多样性)

D.Variability(变异性)

【答案】:D

解析:本题考察大数据的4V核心特征。大数据的4V特征定义为:Volume(数据量,如TB/PB级海量数据)、Velocity(速度,如实时流数据生成)、Variety(多样性,含结构化/非结构化数据)、Value(价值密度,需挖掘潜在价值)。选项D的“Variability(变异性)”并非4V特征之一,因此正确答案为D。

4、以下关于NoSQL数据库的描述,正确的是?

A.NoSQL数据库只能存储结构化数据

B.NoSQL数据库通常不严格遵循ACID事务特性

C.NoSQL数据库仅支持单机部署,无法分布式扩展

D.NoSQL数据库的查询语言与SQL完全相同

【答案】:B

解析:本题考察NoSQL数据库特性知识点。NoSQL(非关系型数据库)的特点:A错误,NoSQL支持非结构化(如文档、图片)、半结构化数据,而SQL主要处理结构化数据;B正确,NoSQL为提高扩展性,通常弱化ACID(如BASE理论),不严格遵循原子性、一致性等特性;C错误,NoSQL支持分布式部署(如MongoDB分片),可横向扩展;D错误,NoSQL查询语言多样(如MongoDB的BSON查询、Redis的键值对查询),与SQL语法不同。因此选B。

5、大数据的“4V”特征中,描述数据产生和处理速度快的是哪个特征?

A.Volume(数据容量)

B.Variety(数据多样性)

C.Velocity(数据速度)

D.Veracity(数据真实性)

【答案】:C

解析:本题考察大数据的基本特征知识点。大数据“4V”特征中,Velocity特指数据产生和处理的速度(如实时流数据处理);Volume指数据规模巨大,Variety指数据类型多样(结构化、半结构化、非结构化),Veracity是数据质量维度(真实性),通常不属于4V核心特征。

6、大数据的4V特征中,哪个特征描述数据产生和处理的速度快?

A.Volume(数据量)

B.Velocity(处理速度)

C.Variety(数据多样性)

D.Veracity(数据真实性)

【答案】:B

解析:本题考察大数据核心特征知识点。大数据4V特征中,Velocity特指数据产生和处理的速度(如实时流数据处理场景);A选项Volume指数据规模大小,C选项Variety指数据类型多样(结构化/非结构化),D选项Veracity指数据质量可靠性。因此正确答案为B。

7、下列哪种工具属于大数据可视化工具?

A.MySQL(关系型数据库管理系统)

B.ApacheHBase(分布式数据库)

C.Tableau(交互式可视化平台)

D.Pig(高级查询语言)

【答案】:C

解析:本题考察大数据工具类型。Tableau是专业的交互式数据可视化工具,用于生成图表、仪表盘等;A、B属于数据存储工具,D是Hadoop生态中的查询语言,因此正确答案为C。

8、以下关于数据仓库(DW)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向主题和历史数据,数据湖更注重原始数据的存储与管理

C.数据仓库更新频率高,数据湖更新频率低

D.数据仓库适合实时分析,数据湖适合批处理分析

【答案】:B

解析:本题考察数据仓库与数据湖的核心区别。数据仓库(DW)是面向主题、集成、时变、非

文档评论(0)

1亿VIP精品文档

相关文档