2026年国开电大大数据技术形考题库100道含答案（培优a卷）.docxVIP

下载本文档

0
0
约2.44万字
约 38页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道含答案（培优a卷）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中，负责分布式数据存储的核心组件是？

A.MapReduce

B.YARN

C.HDFS

D.Hive

【答案】：C

解析：HDFS（HadoopDistributedFileSystem）是Hadoop生态系统中专门负责分布式数据存储的核心组件，通过多副本机制保障数据可靠性；MapReduce是分布式计算框架，YARN负责资源管理与任务调度，Hive是数据仓库工具，主要用于数据查询与分析，故正确答案为C。

2、在大数据数据预处理过程中，对数据进行格式转换（如数值型转字符串型）属于哪个步骤？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：C

解析：本题考察数据预处理步骤知识点。数据转换（DataTransformation）是对数据进行格式调整、标准化、归一化等操作，包括数值型转字符串型；A选项数据清洗主要处理噪声、缺失值；B选项数据集成是合并多源数据；D选项数据规约是降维或减少特征维度，均不符合题意。

3、在机器学习中，用于预测类别标签（如“垃圾邮件/非垃圾邮件”）的算法是？

A.逻辑回归（LogisticRegression）

B.线性回归（LinearRegression）

C.K-means聚类算法

D.PCA（主成分分析）降维算法

【答案】：A

解析：本题考察机器学习算法类型知识点。逻辑回归是典型的分类算法，用于预测离散类别；线性回归是回归算法（预测连续值）；K-means是无监督聚类算法（无标签数据分组）；PCA是无监督降维算法（减少特征维度），均不用于分类任务。

4、以下哪种算法常用于聚类分析？

A.决策树（分类算法）

B.K-Means（聚类算法）

C.线性回归（回归算法）

D.支持向量机（SVM，分类算法）

【答案】：B

解析：本题考察数据挖掘算法的应用场景。聚类分析的目标是将数据对象分组为不同簇，K-Means是典型的聚类算法；A选项决策树用于分类任务，C选项线性回归用于回归预测，D选项SVM主要用于分类，均不属于聚类。因此正确答案为B。

5、以下哪种算法属于无监督学习中的聚类算法？

A.逻辑回归（监督分类算法）

B.决策树（监督分类/回归算法）

C.K-means（无监督聚类算法）

D.支持向量机（SVM，监督分类算法）

【答案】：C

解析：K-means通过距离度量将无标签数据自动划分成K个簇，属于无监督聚类算法；逻辑回归、决策树、SVM均为监督学习算法（需标签数据），用于分类或回归任务。因此答案为C。

6、下列哪项是大数据在交通领域的典型应用？

A.基于用户行为的电商智能推荐

B.城市实时交通流量预测与智能调度

C.医疗影像的自动诊断系统

D.社交媒体情感分析平台

【答案】：B

解析：本题考察大数据应用领域知识点。A项属于电商领域的个性化推荐，C项属于医疗领域的影像分析，D项属于社交领域的舆情监测，均非交通领域应用；B项通过实时分析交通数据（如车流量、车速）实现智能调度与预测，是大数据在交通领域的典型应用。

7、数据预处理中，处理缺失值、异常值和重复数据属于以下哪个步骤？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：数据清洗的核心任务是修正数据质量问题，包括处理缺失值、异常值、重复数据等；数据集成是合并多源数据，数据转换是标准化/归一化数据格式，数据规约是减少数据规模。因此正确答案为A。

8、在大数据分析流程中，数据清洗的主要目的是？

A.提高数据质量以保障分析结果准确性

B.快速增加数据集的样本量

C.降低数据处理过程中的计算速度

D.减少数据维度以简化分析模型

【答案】：A

解析：本题考察数据预处理的核心目的。数据清洗通过处理缺失值、异常值、重复值等，去除噪声并提升数据质量，从而保障后续分析结果的准确性。选项B“增加样本量”不属于清洗范畴，C“降低速度”与清洗目的相悖，D“减少维度”属于特征选择，因此正确答案为A。

9、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是？

A.HDFS（Hadoop分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.ZooKeeper（分布式协调服务）

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（Hadoop分布式文件系统）是Hadoop生态的基础，专为分布式存储海量数据设计；MapReduce是分布式计算框架，YARN负责资源管理与调度，ZooKeeper用于分布式协调，因此负责分布式存储的是HDFS，正确选项A。

2026年国开电大大数据技术形考题库100道含答案（培优a卷）.docxVIP

2026年国开电大大数据技术形考题库100道含答案（培优a卷）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档