2026年国开电大大数据技术概论形考题库100道含完整答案【名校卷】.docxVIP

下载本文档

1
0
约2.47万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术概论形考题库100道含完整答案【名校卷】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中，负责分布式计算任务调度与资源管理的核心组件是？

A.HDFS（分布式文件系统）

B.MapReduce（计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：C

解析：本题考察Hadoop生态系统核心组件知识点。HDFS是分布式文件系统，负责数据存储；MapReduce是分布式计算框架，负责并行计算；YARN是资源管理器，负责集群资源调度与任务管理；Hive是基于Hadoop的数据仓库工具，用于数据查询与分析。因此正确答案为C。

2、在Hadoop生态系统中，负责分布式存储海量数据的核心组件是以下哪一项？

A.MapReduce（计算框架）

B.HDFS（分布式文件系统）

C.YARN（资源管理器）

D.ZooKeeper（协调服务）

【答案】：B

解析：本题考察Hadoop生态系统组件知识点。正确答案为B，HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，专为存储海量数据设计，通过多副本机制实现高容错和高吞吐量；MapReduce是分布式计算框架，YARN负责资源管理和任务调度，ZooKeeper提供分布式协调服务，均不负责核心存储功能。

3、大数据处理流程中，数据经过采集、清洗和转换后，通常进入哪个环节？

A.数据采集（重复环节）

B.数据存储

C.数据可视化

D.数据挖掘

【答案】：B

解析：本题考察大数据处理流程知识点。大数据典型处理流程为：数据采集→预处理（清洗、转换）→数据存储→数据分析/挖掘→数据可视化。数据经过清洗和转换后，进入数据存储环节，以便后续处理和分析。选项A为原始环节，C和D是后续环节，因此正确答案为B。

4、以下哪个是Hadoop分布式文件系统的英文缩写？

A.HDFS

B.HBase

C.Hive

D.Hadoop

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS是HadoopDistributedFileSystem的缩写，是Hadoop分布式文件系统，用于存储海量数据；HBase是HadoopDatabase（分布式NoSQL数据库），Hive是基于Hadoop的数据仓库工具，Hadoop是整体框架名称而非文件系统缩写。因此正确答案为A。

5、以下哪种数据库适合存储非结构化数据（如日志、图片、社交网络数据）？

A.MySQL（关系型数据库）

B.MongoDB（NoSQL文档数据库）

C.Oracle（关系型数据库）

D.SQLServer（关系型数据库）

【答案】：B

解析：本题考察数据库类型知识点。关系型数据库（如MySQL、Oracle、SQLServer）采用结构化表结构，适合存储结构化数据（如用户信息、交易记录）；NoSQL数据库（如MongoDB）支持非结构化/半结构化数据，MongoDB作为文档型NoSQL数据库，以JSON-like文档存储，能灵活处理日志、图片等非结构化数据。因此正确答案为B。

6、在大数据预处理中，用于处理数据缺失值的常用方法是？

A.标准化

B.归一化

C.插值法

D.数据采集

【答案】：C

解析：本题考察大数据预处理技术。标准化和归一化属于数据转换（特征缩放）方法，用于统一数据量纲；数据采集是数据获取阶段操作；插值法（如线性插值、均值填充）通过已有数据估算缺失值，是处理缺失值的核心方法。因此正确答案为C。

7、以下哪种数据库属于列族数据库，适用于海量数据的随机读写和高并发场景？

A.HBase

B.MongoDB

C.Redis

D.CouchDB

【答案】：A

解析：本题考察NoSQL数据库类型。正确答案为A：HBase是典型列族数据库，基于HDFS存储，支持海量数据的随机读写和高并发访问，适合结构化数据实时查询。B选项MongoDB是文档型数据库（JSON格式）；C选项Redis是键值型数据库（内存存储）；D选项CouchDB是文档型数据库。因此HBase属于列族数据库，答案为A。

8、在大数据预处理流程中，以下哪项操作不属于数据清洗的范畴？

A.去除重复记录与异常值

B.填补缺失的用户注册时间数据

C.对敏感数据（如身份证号）进行脱敏处理

D.对数据特征（如身高）进行标准化转换

【答案】：D

解析：本题考察数据预处理中‘数据清洗’与‘特征工程’的区别。数据清洗主要处理数据质量问题，包括去重（A）、填补缺失值（B）、脱敏（C，保护隐私属于数据清洗的辅助环节）；而选项D的‘特征标准化’属于特征工程（数据转换），目的是统一特征尺度，不属于数据清洗阶段。因此

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道含完整答案【名校卷】.docxVIP