2026年国开电大大数据技术概论形考题库100道(名校卷).docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道(名校卷).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中用于分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件功能。选项A的HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,用于大规模数据的分布式存储;选项B的MapReduce是分布式计算框架,负责数据处理;选项C的YARN是资源管理器,负责集群资源调度;选项D的Hive是数据仓库工具,用于数据查询与分析。因此正确答案为A。

2、以下哪项属于大数据中的非结构化数据?

A.关系型数据库表中的用户信息数据

B.Excel表格中按固定格式存储的销售数据

C.社交媒体平台的用户评论文本

D.企业ERP系统中结构化的财务报表数据

【答案】:C

解析:本题考察大数据数据类型知识点。结构化数据具有固定格式和预定义模型,通常存储在关系型数据库中(如A、B、D选项);非结构化数据无固定格式,如文本、图片、音频等。C选项的用户评论文本属于非结构化数据,因此正确答案为C。

3、在大数据处理流程中,以下哪个步骤主要用于处理数据中的重复记录和缺失值?

A.数据清洗(处理噪声、缺失值、重复值)

B.数据集成(合并多源数据)

C.数据转换(标准化、归一化)

D.数据规约(减少数据维度)

【答案】:A

解析:本题考察大数据预处理步骤知识点。数据清洗的核心任务包括处理缺失值、重复记录、噪声数据等,以提升数据质量;数据集成是将多个数据源合并为统一数据集;数据转换是调整数据格式或数值范围;数据规约是通过降维或采样减少数据规模。因此正确答案为A。

4、Hadoop生态系统中,哪个组件负责分布式文件存储?

A.MapReduce

B.HDFS

C.YARN

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;A选项MapReduce是分布式计算框架,负责并行任务处理;C选项YARN是资源管理器,负责集群资源调度;D选项Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为B。

5、Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce(分布式计算模型)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统的核心组件功能。HDFS(选项A)是Hadoop分布式文件系统,专门用于存储海量分布式数据,是Hadoop的基础存储层;MapReduce(选项B)是分布式计算框架,负责并行处理大数据;YARN(选项C)是资源管理器,负责集群资源调度;Hive(选项D)是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为A。

6、Hadoop生态系统中,负责分布式资源管理与调度的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件的功能。选项A的HDFS负责分布式存储海量数据;选项B的MapReduce是分布式计算框架,实现并行计算;选项C的YARN是资源管理器,负责集群资源的分配与调度;选项D的Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为C。

7、关于大数据的基本特点,以下描述正确的是?

A.大数据仅包含结构化数据(包含非结构化数据)

B.大数据的数据量必须超过100TB(无固定阈值)

C.大数据处理需满足低延迟要求(批处理框架延迟高)

D.大数据具有“4V”特征中的Velocity(处理速度)

【答案】:D

解析:本题考察大数据的核心特点。A错误,大数据包含结构化、半结构化、非结构化数据;B错误,大数据无固定数据量阈值,仅强调规模远超传统工具处理能力;C错误,批处理框架(如MapReduce)对实时性要求低,大数据的Velocity特征强调“处理速度”但不绝对要求低延迟;D正确,大数据“4V”特征包含Velocity(处理速度),因此正确答案为D。

8、在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Hive

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识

文档评论(0)

1亿VIP精品文档

相关文档