2026年国开电大大数据技术形考题库100道附答案（培优b卷）.docxVIP

下载本文档

1
0
约2.42万字
约 38页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附答案（培优b卷）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据处理流程中，数据清洗的主要目的是？

A.将原始数据转换为可分析的结构化格式

B.去除数据中的噪声和错误信息（如缺失值、重复值）

C.对数据进行分类和标签化以构建机器学习模型

D.统计数据的基本分布特征（如均值、标准差）

【答案】：B

解析：本题考察数据预处理中数据清洗的核心作用。数据清洗目标是处理原始数据质量问题（如缺失值、异常值、重复记录），即去除噪声和错误信息。选项A（格式转换）属于数据转换；选项C（分类标签化）是特征工程；选项D（统计分布）属于数据探索，因此正确答案为B。

2、在Hadoop分布式计算框架中，负责分布式存储的核心组件是？

A.MapReduce（分布式计算框架）

B.HDFS（分布式文件系统）

C.YARN（资源管理器）

D.ZooKeeper（分布式协调服务）

【答案】：B

解析：本题考察Hadoop生态系统核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，YARN负责集群资源管理，ZooKeeper提供分布式协调服务。因此正确答案为B。

3、大数据的哪个特征体现了数据产生和处理的速度要求？

A.Volume（数据量）

B.Velocity（速度）

C.Variety（多样性）

D.Value（价值密度）

【答案】：B

解析：本题考察大数据的5V特征知识点。大数据的5V特征中，Velocity（速度）特指数据产生和处理的速度要求，例如实时流数据的快速处理；Volume（A选项）指数据量大小，强调数据规模；Variety（C选项）指数据类型多样（结构化、半结构化、非结构化）；Value（D选项）指数据价值密度低，需通过分析挖掘价值。因此正确答案为B。

4、数据预处理中，处理缺失值和异常值的关键步骤是？

A.数据集成

B.数据清洗

C.数据转换

D.数据归约

【答案】：B

解析：数据清洗阶段的核心任务是处理数据质量问题，包括填充/删除缺失值、识别/修正异常值等。数据集成是多源数据合并，数据转换是格式标准化，数据归约是压缩数据规模，均不直接针对缺失值和异常值处理，因此正确答案为B。

5、大数据的核心4V特征不包括以下哪一项？

A.Volume（规模）

B.Velocity（速度）

C.Veracity（真实性）

D.Variety（多样性）

【答案】：C

解析：本题考察大数据的核心特征知识点。大数据的4V特征通常定义为Volume（数据规模）、Velocity（处理速度）、Variety（数据多样性）、Value（数据价值），而Veracity（数据真实性）虽为大数据需关注的特性，但不属于4V标准定义。因此C选项错误。

6、以下哪种数据库类型适合存储非结构化或半结构化数据（如日志、文档、图片元数据）？

A.关系型数据库（如MySQL）

B.NoSQL数据库（如MongoDB）

C.HDFS文件系统

D.Hive数据仓库

【答案】：B

解析：本题考察大数据存储技术知识点。NoSQL数据库（非关系型数据库）支持多种数据模型，可灵活存储非结构化/半结构化数据（如JSON文档、图片二进制数据等），典型如MongoDB、Cassandra。关系型数据库（A）适合结构化数据（二维表），HDFS（C）是分布式文件存储系统而非数据库，Hive（D）是基于Hadoop的数据仓库工具，依赖关系型数据库或HDFS存储数据，本身不直接存储非结构化数据。

7、以下哪项不属于大数据的4V特征？

A.Volume（数据量）

B.Velocity（速度）

C.Variety（多样性）

D.Variability（变异性）

【答案】：D

解析：本题考察大数据的4V核心特征。大数据的4V特征定义为：Volume（数据量，如TB/PB级海量数据）、Velocity（速度，如实时流数据生成）、Variety（多样性，含结构化/非结构化数据）、Value（价值密度，需挖掘潜在价值）。选项D的“Variability（变异性）”并非4V特征之一，因此正确答案为D。

8、以下哪个大数据框架主要用于批处理计算？

A.SparkStreaming（实时流处理框架）

B.Storm（实时流处理框架）

C.Flink（实时流处理框架）

D.MapReduce（分布式批处理框架）

【答案】：D

解析：MapReduce是Hadoop的核心批处理计算框架，适用于离线大数据计算；SparkStreaming、Storm、Flink均支持实时流数据处理（SparkStrea

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附答案（培优b卷）.docxVIP