2026年国开电大大数据技术形考题库100道含答案(培优a卷).docxVIP

  • 0
  • 0
  • 约2.44万字
  • 约 38页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道含答案(培优a卷).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Hive

【答案】:C

解析:HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中专门负责分布式数据存储的核心组件,通过多副本机制保障数据可靠性;MapReduce是分布式计算框架,YARN负责资源管理与任务调度,Hive是数据仓库工具,主要用于数据查询与分析,故正确答案为C。

2、在大数据数据预处理过程中,对数据进行格式转换(如数值型转字符串型)属于哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:C

解析:本题考察数据预处理步骤知识点。数据转换(DataTransformation)是对数据进行格式调整、标准化、归一化等操作,包括数值型转字符串型;A选项数据清洗主要处理噪声、缺失值;B选项数据集成是合并多源数据;D选项数据规约是降维或减少特征维度,均不符合题意。

3、在机器学习中,用于预测类别标签(如“垃圾邮件/非垃圾邮件”)的算法是?

A.逻辑回归(LogisticRegression)

B.线性回归(LinearRegression)

C.K-means聚类算法

D.PCA(主成分分析)降维算法

【答案】:A

解析:本题考察机器学习算法类型知识点。逻辑回归是典型的分类算法,用于预测离散类别;线性回归是回归算法(预测连续值);K-means是无监督聚类算法(无标签数据分组);PCA是无监督降维算法(减少特征维度),均不用于分类任务。

4、以下哪种算法常用于聚类分析?

A.决策树(分类算法)

B.K-Means(聚类算法)

C.线性回归(回归算法)

D.支持向量机(SVM,分类算法)

【答案】:B

解析:本题考察数据挖掘算法的应用场景。聚类分析的目标是将数据对象分组为不同簇,K-Means是典型的聚类算法;A选项决策树用于分类任务,C选项线性回归用于回归预测,D选项SVM主要用于分类,均不属于聚类。因此正确答案为B。

5、以下哪种算法属于无监督学习中的聚类算法?

A.逻辑回归(监督分类算法)

B.决策树(监督分类/回归算法)

C.K-means(无监督聚类算法)

D.支持向量机(SVM,监督分类算法)

【答案】:C

解析:K-means通过距离度量将无标签数据自动划分成K个簇,属于无监督聚类算法;逻辑回归、决策树、SVM均为监督学习算法(需标签数据),用于分类或回归任务。因此答案为C。

6、下列哪项是大数据在交通领域的典型应用?

A.基于用户行为的电商智能推荐

B.城市实时交通流量预测与智能调度

C.医疗影像的自动诊断系统

D.社交媒体情感分析平台

【答案】:B

解析:本题考察大数据应用领域知识点。A项属于电商领域的个性化推荐,C项属于医疗领域的影像分析,D项属于社交领域的舆情监测,均非交通领域应用;B项通过实时分析交通数据(如车流量、车速)实现智能调度与预测,是大数据在交通领域的典型应用。

7、数据预处理中,处理缺失值、异常值和重复数据属于以下哪个步骤?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:数据清洗的核心任务是修正数据质量问题,包括处理缺失值、异常值、重复数据等;数据集成是合并多源数据,数据转换是标准化/归一化数据格式,数据规约是减少数据规模。因此正确答案为A。

8、在大数据分析流程中,数据清洗的主要目的是?

A.提高数据质量以保障分析结果准确性

B.快速增加数据集的样本量

C.降低数据处理过程中的计算速度

D.减少数据维度以简化分析模型

【答案】:A

解析:本题考察数据预处理的核心目的。数据清洗通过处理缺失值、异常值、重复值等,去除噪声并提升数据质量,从而保障后续分析结果的准确性。选项B“增加样本量”不属于清洗范畴,C“降低速度”与清洗目的相悖,D“减少维度”属于特征选择,因此正确答案为A。

9、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态的基础,专为分布式存储海量数据设计;MapReduce是分布式计算框架,YARN负责资源管理与调度,ZooKeeper用于分布式协调,因此负责分布式存储的是HDFS,正确选项A。

10、以下哪种数

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档