2026年国开电大大数据技术形考题库100道含答案(精练).docxVIP

  • 1
  • 0
  • 约2.4万字
  • 约 38页
  • 2026-03-09 发布于山东
  • 举报

2026年国开电大大数据技术形考题库100道含答案(精练).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、Hadoop分布式文件系统(HDFS)的核心作用是?

A.提供分布式计算框架

B.实现海量数据的分布式存储

C.执行数据挖掘算法

D.进行数据可视化展示

【答案】:B

解析:本题考察Hadoop生态系统组件。HDFS是Hadoop的分布式存储系统,主要负责将海量数据分散存储在多台服务器上;A选项是MapReduce/YARN的功能;C选项数据挖掘工具如Mahout不属于HDFS;D选项数据可视化工具如Hue属于辅助组件,非HDFS核心功能。因此正确答案为B。

2、以下哪个大数据框架主要用于批处理计算?

A.SparkStreaming(实时流处理框架)

B.Storm(实时流处理框架)

C.Flink(实时流处理框架)

D.MapReduce(分布式批处理框架)

【答案】:D

解析:MapReduce是Hadoop的核心批处理计算框架,适用于离线大数据计算;SparkStreaming、Storm、Flink均支持实时流数据处理(SparkStreaming为微批处理,Storm/Flink为纯流处理)。因此正确答案为D。

3、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:B

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,负责海量数据的分布式存储;A选项MapReduce是分布式计算框架,C选项YARN负责资源调度与管理,D选项Hive是基于Hadoop的数据仓库工具。因此正确答案为B。

4、Hadoop分布式文件系统(HDFS)的核心作用是?

A.负责海量数据的存储

B.调度分布式计算任务

C.实现分布式并行计算

D.提供数据可视化功能

【答案】:A

解析:本题考察Hadoop生态系统中HDFS的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,其核心作用是存储海量数据,通过副本机制实现数据冗余和可靠性(如默认3副本)。B选项“调度分布式计算任务”是YARN的资源管理器功能;C选项“实现分布式并行计算”是MapReduce的核心目标;D选项“数据可视化”属于数据呈现环节,并非HDFS的功能。因此正确答案为A。

5、以下哪项属于大数据预处理阶段的核心操作?

A.数据清洗

B.数据挖掘

C.模型训练

D.结果可视化

【答案】:A

解析:本题考察大数据处理流程各阶段的任务区分。大数据处理流程分为:数据采集→预处理→数据存储→分析挖掘→结果展示。预处理阶段的核心操作包括数据清洗(处理缺失值、去重、格式统一等)、数据集成等。选项B的数据挖掘属于分析阶段,C的模型训练属于建模阶段,D的结果可视化属于后处理阶段。因此正确答案为A。

6、在大数据处理流程中,以下哪项不属于数据预处理阶段?

A.数据清洗

B.数据集成

C.数据存储

D.数据转换

【答案】:C

解析:本题考察大数据处理流程中数据预处理阶段知识点,数据预处理通常包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换、标准化)等操作;而数据存储属于数据处理后的持久化环节,不属于预处理阶段,因此正确答案为C。

7、以下哪种数据挖掘算法属于无监督学习中的聚类算法?

A.决策树

B.K-Means

C.线性回归

D.Apriori

【答案】:B

解析:本题考察数据挖掘算法类型知识点。K-Means是典型的无监督聚类算法,通过距离度量将数据自动分组为不同簇;决策树常用于分类任务(有监督),线性回归用于回归预测(有监督),Apriori用于关联规则挖掘(无监督但非聚类)。因此选B。

8、以下哪种属于大数据流处理技术?

A.HadoopMapReduce(批处理框架)

B.ApacheStorm(实时流处理框架)

C.ApacheSpark(批处理为主)

D.HBase(分布式NoSQL数据库)

【答案】:B

解析:本题考察大数据处理技术类型知识点。HadoopMapReduce是典型的批处理框架,适用于离线数据计算;Spark以批处理为核心(虽支持SparkStreaming流处理,但非专门流处理框架);Storm是专门针对实时流数据处理的技术;HBase是分布式NoSQL数据库,用于数据存储而非处理。因此正确答案为B。

9、以下哪个工具主要用于交互式数据探索和商业智能报表制作?

A.Python

文档评论(0)

1亿VIP精品文档

相关文档