2026年国开电大大数据技术形考题库100道附答案(培优b卷).docxVIP

  • 1
  • 0
  • 约2.42万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附答案(培优b卷).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据处理流程中,数据清洗的主要目的是?

A.将原始数据转换为可分析的结构化格式

B.去除数据中的噪声和错误信息(如缺失值、重复值)

C.对数据进行分类和标签化以构建机器学习模型

D.统计数据的基本分布特征(如均值、标准差)

【答案】:B

解析:本题考察数据预处理中数据清洗的核心作用。数据清洗目标是处理原始数据质量问题(如缺失值、异常值、重复记录),即去除噪声和错误信息。选项A(格式转换)属于数据转换;选项C(分类标签化)是特征工程;选项D(统计分布)属于数据探索,因此正确答案为B。

2、在Hadoop分布式计算框架中,负责分布式存储的核心组件是?

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)

【答案】:B

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理,ZooKeeper提供分布式协调服务。因此正确答案为B。

3、大数据的哪个特征体现了数据产生和处理的速度要求?

A.Volume(数据量)

B.Velocity(速度)

C.Variety(多样性)

D.Value(价值密度)

【答案】:B

解析:本题考察大数据的5V特征知识点。大数据的5V特征中,Velocity(速度)特指数据产生和处理的速度要求,例如实时流数据的快速处理;Volume(A选项)指数据量大小,强调数据规模;Variety(C选项)指数据类型多样(结构化、半结构化、非结构化);Value(D选项)指数据价值密度低,需通过分析挖掘价值。因此正确答案为B。

4、数据预处理中,处理缺失值和异常值的关键步骤是?

A.数据集成

B.数据清洗

C.数据转换

D.数据归约

【答案】:B

解析:数据清洗阶段的核心任务是处理数据质量问题,包括填充/删除缺失值、识别/修正异常值等。数据集成是多源数据合并,数据转换是格式标准化,数据归约是压缩数据规模,均不直接针对缺失值和异常值处理,因此正确答案为B。

5、大数据的核心4V特征不包括以下哪一项?

A.Volume(规模)

B.Velocity(速度)

C.Veracity(真实性)

D.Variety(多样性)

【答案】:C

解析:本题考察大数据的核心特征知识点。大数据的4V特征通常定义为Volume(数据规模)、Velocity(处理速度)、Variety(数据多样性)、Value(数据价值),而Veracity(数据真实性)虽为大数据需关注的特性,但不属于4V标准定义。因此C选项错误。

6、以下哪种数据库类型适合存储非结构化或半结构化数据(如日志、文档、图片元数据)?

A.关系型数据库(如MySQL)

B.NoSQL数据库(如MongoDB)

C.HDFS文件系统

D.Hive数据仓库

【答案】:B

解析:本题考察大数据存储技术知识点。NoSQL数据库(非关系型数据库)支持多种数据模型,可灵活存储非结构化/半结构化数据(如JSON文档、图片二进制数据等),典型如MongoDB、Cassandra。关系型数据库(A)适合结构化数据(二维表),HDFS(C)是分布式文件存储系统而非数据库,Hive(D)是基于Hadoop的数据仓库工具,依赖关系型数据库或HDFS存储数据,本身不直接存储非结构化数据。

7、以下哪项不属于大数据的4V特征?

A.Volume(数据量)

B.Velocity(速度)

C.Variety(多样性)

D.Variability(变异性)

【答案】:D

解析:本题考察大数据的4V核心特征。大数据的4V特征定义为:Volume(数据量,如TB/PB级海量数据)、Velocity(速度,如实时流数据生成)、Variety(多样性,含结构化/非结构化数据)、Value(价值密度,需挖掘潜在价值)。选项D的“Variability(变异性)”并非4V特征之一,因此正确答案为D。

8、以下哪个大数据框架主要用于批处理计算?

A.SparkStreaming(实时流处理框架)

B.Storm(实时流处理框架)

C.Flink(实时流处理框架)

D.MapReduce(分布式批处理框架)

【答案】:D

解析:MapReduce是Hadoop的核心批处理计算框架,适用于离线大数据计算;SparkStreaming、Storm、Flink均支持实时流数据处理(SparkStrea

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档