2026年国开电大大数据技术形考题库100道附答案（研优卷）.docxVIP

下载本文档

0
0
约2.49万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附答案（研优卷）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在决策树算法中，ID3算法用于选择最优分裂特征时采用的指标是？

A.信息增益

B.信息增益比

C.基尼指数

D.均方误差

【答案】：A

解析：本题考察决策树算法的核心指标。决策树分裂特征选择是关键：ID3算法基于信息熵，使用“信息增益”（选项A）衡量特征对分类的贡献；C4.5算法优化为“信息增益比”（选项B）以解决信息增益偏向多值特征的问题；CART算法（分类与回归树）采用“基尼指数”（选项C）；均方误差（选项D）是回归问题中（如线性回归）衡量预测误差的指标，与决策树无关。因此ID3算法使用信息增益选择分裂特征。

2、以下哪项不属于大数据的5V特征？

A.Volume（容量）

B.Velocity（速度）

C.Value（价值）

D.Variable（变量）

【答案】：D

解析：大数据5V特征包括Volume（数据量大）、Velocity（处理速度快）、Variety（数据类型多样）、Veracity（数据真实性）、Value（数据价值密度低）。Variable（变量）不属于5V特征，因此答案为D。

3、大数据的哪个特征强调数据产生和处理的速度快，例如实时性数据处理？

A.Volume（数据规模大）

B.Velocity（数据处理速度快）

C.Variety（数据类型多样）

D.Value（数据价值密度低）

【答案】：B

解析：本题考察大数据的5V特征知识点。选项A的Volume指数据规模庞大，不符合速度快的描述；选项C的Variety指数据类型多样（结构化、半结构化、非结构化），与速度无关；选项D的Value强调数据价值密度低，需通过挖掘提取价值，也不涉及速度；选项B的Velocity明确指数据产生和处理的速度快，符合题干中“实时性数据处理”的描述，因此正确答案为B。

4、以下哪项不属于大数据的基本特征？

A.Volume（规模）

B.Velocity（速度）

C.Veracity（真实性）

D.Variety（多样性）

【答案】：C

解析：本题考察大数据的4V特征知识点。大数据的基本特征通常指Volume（规模）、Velocity（速度）、Variety（多样性）、Value（价值），而Veracity（真实性）不属于其核心特征。其他选项均为大数据的关键特征，因此正确答案为C。

5、在大数据预处理中，处理缺失值的常用方法不包括以下哪项？

A.删除记录

B.均值填充

C.插值法

D.直接丢弃原始数据

【答案】：D

解析：本题考察大数据预处理中缺失值处理方法。处理缺失值的常用方法包括：删除记录（适用于缺失比例低且非关键数据）、均值/中位数填充（数值型数据常用）、插值法（线性插值、样条插值等）。选项D“直接丢弃原始数据”不属于常用方法，会导致数据信息大量损失，因此正确答案为D。

6、Hadoop生态系统中，负责分布式存储的核心组件是？

A.MapReduce（分布式计算框架）

B.HDFS（分布式文件系统）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：B

解析：本题考察Hadoop生态系统核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责海量数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Hive是基于Hadoop的数据仓库工具，不负责存储。因此正确答案为B。

7、Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：A

解析：本题考察Hadoop生态系统组件知识点。HDFS是Hadoop的分布式文件系统，专门负责海量数据的分布式存储；MapReduce是批处理计算框架，YARN负责集群资源管理与调度，Hive是数据仓库工具用于数据查询与分析，均不负责核心存储。

8、在Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责大数据的分布式存储；MapReduce是分布式计算框架，YARN是资源管理器，Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的是HDFS，正确答案为A。

9、在大数据处理流程中，以下哪个步骤主要用于处理数据中的缺失值、异常值和重

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附答案（研优卷）.docxVIP