2026年国开电大大数据技术形考题库100道附参考答案【巩固】.docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附参考答案【巩固】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.MapReduce(计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(分布式文件系统)是Hadoop的核心存储组件,负责将海量数据分布存储在多台服务器上;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。选项A、B、D均非Hadoop的分布式存储组件,因此正确答案为C。

2、下列算法中,属于分类算法的是?

A.K-Means(聚类算法)

B.Apriori(关联规则挖掘算法)

C.决策树(分类/回归算法)

D.PCA(主成分分析算法)

【答案】:C

解析:本题考察数据挖掘算法类型知识点。决策树(C选项)是典型的分类算法,可用于预测类别标签;K-Means(A选项)是无监督聚类算法,用于数据分组;Apriori(B选项)是关联规则挖掘算法,用于发现数据项之间的关联关系;PCA(D选项)是降维算法,用于减少特征维度。因此正确答案为C。

3、在大数据预处理流程中,‘处理数据中存在的重复记录’属于以下哪种操作?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据预处理的核心操作。数据预处理流程包括数据清洗、集成、转换、规约等环节:数据清洗(选项A)的目标是去除噪声、异常值、重复值等,因此“处理重复记录”属于数据清洗;数据集成(B)是合并多源数据;数据转换(C)是对数据格式/结构进行转换(如标准化);数据规约(D)是通过降维、采样等减小数据规模。因此“处理重复记录”属于数据清洗操作。

4、在大数据处理的预处理阶段,以下哪个操作主要用于处理数据中的缺失值和异常值?

A.数据清洗

B.数据集成

C.数据转换

D.数据可视化

【答案】:A

解析:本题考察数据预处理操作知识点。数据清洗是预处理的关键步骤,主要用于处理数据中的缺失值(如空值)、异常值(如离群点)、重复值等问题,确保数据质量。数据集成是合并多源数据,数据转换是对数据进行标准化、归一化等格式转换,数据可视化是结果展示,不属于预处理操作。

5、以下哪项不属于大数据的4V特征?

A.Volume(数据量)

B.Velocity(数据速度)

C.Variance(方差)

D.Value(数据价值)

【答案】:C

解析:大数据的4V特征标准定义为Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)、Value(数据价值)。选项C的Variance(方差)是统计学概念,不属于大数据4V特征;其他选项均为4V核心特征,因此正确答案为C。

6、数据预处理过程中,以下哪一步骤主要用于处理数据中的缺失值、异常值和重复记录?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:A

解析:本题考察数据预处理的核心步骤知识点。数据清洗是数据预处理的关键环节,主要任务包括处理缺失值(如填充或删除)、异常值(识别并修正)和重复记录(去重);数据集成是合并多源数据;数据转换是将数据转换为适合分析的格式(如标准化、归一化);数据归约是通过降维或特征选择减少数据规模。选项B、C、D均非处理缺失值、异常值的步骤,因此正确答案为A。

7、以下哪种计算模式适用于实时处理高并发的数据流场景?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.离线计算(OfflineComputing)

D.交互式计算(InteractiveComputing)

【答案】:B

解析:本题考察大数据计算模式的应用场景。流处理(StreamProcessing)专为实时处理持续高并发数据流设计(如Flink、SparkStreaming)。选项A(批处理)适用于历史数据批量分析;选项C(离线计算)与“实时”需求矛盾;选项D(交互式计算)侧重用户实时查询而非流处理,因此正确答案为B。

8、Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.Spark

【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于大规模数据的分布式存储;YARN是资源管理器,MapReduce是批处理计算框架

文档评论(0)

1亿VIP精品文档

相关文档