2026年国开电大大数据技术概论形考题库100道及答案（名校卷）.docxVIP

下载本文档

0
0
约2.51万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道及答案（名校卷）.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项是Hadoop生态系统中负责分布式存储的核心组件？

A.HDFS

B.MapReduce

C.Spark

D.YARN

【答案】：A

解析：本题考察Hadoop生态系统的核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，负责海量数据的存储；B选项MapReduce是批处理计算框架，C选项Spark是内存计算框架，D选项YARN是资源管理器，因此正确答案为A。

2、在大数据处理流程中，数据清洗的主要目的是？

A.提升数据质量

B.增加数据量

C.改变数据格式

D.提高数据存储速度

【答案】：A

解析：数据清洗是预处理关键步骤，通过处理缺失值、异常值、重复数据等‘脏数据’，去除噪声和错误信息，提升数据质量以确保后续分析准确性。B选项增加数据量非清洗目的；C选项改变格式属于数据转换阶段；D选项提高存储速度与清洗无直接关联。因此正确答案为A。

3、Hadoop生态系统中用于分布式文件存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统组件功能。选项A的HDFS（HadoopDistributedFileSystem）是Hadoop分布式文件系统，用于大规模数据的分布式存储；选项B的MapReduce是分布式计算框架，负责数据处理；选项C的YARN是资源管理器，负责集群资源调度；选项D的Hive是数据仓库工具，用于数据查询与分析。因此正确答案为A。

4、以下哪个工具主要用于交互式大数据可视化分析，帮助用户快速理解数据模式和趋势？

A.Hive（数据仓库工具）

B.Tableau（可视化分析工具）

C.HDFS（分布式存储系统）

D.Kafka（消息队列系统）

【答案】：B

解析：本题考察大数据可视化工具知识点。Tableau是专业的交互式可视化分析工具，支持多种图表类型和数据钻取，可快速呈现数据模式；Hive是基于Hadoop的数据仓库工具，用于SQL查询；HDFS是分布式存储系统；Kafka是高吞吐量消息队列。因此正确答案为B。

5、以下哪项不属于大数据的5V特征？

A.容量（Volume）

B.速度（Velocity）

C.多样性（Variety）

D.复杂性（Complexity）

【答案】：D

解析：本题考察大数据5V特征知识点。大数据的5V特征包括容量（Volume）、速度（Velocity）、多样性（Variety）、真实性（Veracity）和价值（Value），选项A、B、C均属于5V特征，而D选项“复杂性”并非5V特征之一，因此正确答案为D。

6、以下哪种数据处理方式适用于对海量历史数据进行批量分析和挖掘，如统计报表生成？

A.实时流处理

B.离线批处理

C.内存计算

D.图计算

【答案】：B

解析：离线批处理（BatchProcessing）针对大量历史数据进行周期性、批量处理，适合生成统计报表等非实时场景；实时流处理强调低延迟、实时性（如实时监控）；内存计算是利用内存提升处理速度的技术，并非独立处理类型；图计算用于处理图结构数据（如社交网络分析）。因此正确答案为B。

7、在大数据分析流程中，用于处理数据中的重复记录和异常值的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】：A

解析：本题考察大数据预处理步骤的定义。数据清洗（A）是预处理的关键步骤，主要任务是处理数据中的噪声、重复记录、缺失值和异常值，确保数据质量；数据集成（B）是合并多源数据；数据转换（C）是对数据进行标准化、归一化等格式转换；数据归约（D）是通过聚合或降维减少数据规模。因此处理重复记录和异常值的是数据清洗，正确答案为A。

8、在大数据处理中，Spark相比MapReduce的显著优势是？

A.仅适用于批处理任务

B.采用磁盘存储中间结果

C.支持内存计算，速度更快

D.不支持实时流处理

【答案】：C

解析：本题考察Spark与MapReduce的技术对比知识点。Spark是内存计算框架，中间结果存储在内存中，大幅减少磁盘I/O，因此处理速度远快于基于磁盘的MapReduce（批处理框架），C选项正确。A选项错误，Spark同时支持批处理和流处理（如SparkStreaming）；B选项错误，Spark优先使用内存而非磁盘存储；D选项错误，Spark支持实时流处理。

9、以下哪项是Hadoop分布式文件系统（HDFS）的核心功能？

A.提供分布式并行计算能力

B.存储海量数据并通过副本机制提供高容错

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道及答案（名校卷）.docxVIP