2026年国开电大大数据技术形考题库100道及参考答案（综合卷）.docxVIP

下载本文档

1
0
约2.45万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道及参考答案（综合卷）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、下列哪项不属于数据预处理的基本步骤？

A.数据清洗（处理缺失值、异常值）

B.数据加密（数据安全措施）

C.数据集成（合并多源数据）

D.数据规约（降维、压缩数据）

【答案】：B

解析：本题考察数据预处理步骤知识点。数据预处理基本步骤包括数据清洗、数据集成、数据转换、数据规约，主要解决数据质量问题。选项B“数据加密”属于数据安全技术，用于保护数据隐私，与数据预处理无关；A、C、D均为数据预处理的核心步骤。

2、数据预处理中，对数据进行去重、处理缺失值和异常值的步骤属于？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察数据预处理步骤知识点。数据清洗的核心是解决数据质量问题，包括去除重复数据、处理缺失值、异常值等；数据集成是合并多源数据，数据转换是格式/类型转换，数据规约是压缩数据规模，因此答案为A。

3、以下哪种计算模式适用于实时处理高并发的数据流场景？

A.批处理（BatchProcessing）

B.流处理（StreamProcessing）

C.离线计算（OfflineComputing）

D.交互式计算（InteractiveComputing）

【答案】：B

解析：本题考察大数据计算模式的应用场景。流处理（StreamProcessing）专为实时处理持续高并发数据流设计（如Flink、SparkStreaming）。选项A（批处理）适用于历史数据批量分析；选项C（离线计算）与“实时”需求矛盾；选项D（交互式计算）侧重用户实时查询而非流处理，因此正确答案为B。

4、Hadoop分布式文件系统的英文缩写是？

A.HDFS

B.YARN

C.MapReduce

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS是HadoopDistributedFileSystem的缩写，是Hadoop的分布式文件系统，负责海量数据的存储；YARN是资源管理器，MapReduce是计算框架，Hive是数据仓库工具，因此A选项正确。

5、以下哪项不属于大数据在政务领域的典型应用？

A.智慧交通管理系统（如实时路况分析）

B.电子政务平台（如在线审批、信息公开）

C.城市规划决策支持系统（基于人口、交通等数据）

D.人脸识别门禁系统（企业或小区安防）

【答案】：D

解析：本题考察大数据政务应用场景知识点。政务领域应用聚焦公共服务与城市治理，如智慧交通（A）、电子政务（B）、城市规划（C）均属于政务范畴；而人脸识别门禁系统属于企业/安防领域的门禁管理，不属于政务应用，因此正确选项D。

6、Hadoop生态系统中负责分布式文件存储的核心组件是？

A.MapReduce

B.YARN

C.HDFS

D.Spark

【答案】：C

解析：本题考察Hadoop生态系统核心组件的知识点。Hadoop是大数据分布式处理的基础框架，其核心组件包括：HDFS（分布式文件系统，负责存储海量数据）、MapReduce（分布式计算框架）、YARN（资源管理器）。选项A的MapReduce是计算引擎，B的YARN是资源调度系统，D的Spark是独立的内存计算框架（非Hadoop原生核心组件）。因此负责分布式文件存储的是HDFS，正确答案为C。

7、Hadoop生态系统中负责存储海量数据的核心组件是？

A.MapReduce（分布式计算框架）

B.HDFS（分布式文件系统）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：B

解析：HDFS（HadoopDistributedFileSystem）是Hadoop的分布式文件系统，专为存储海量结构化/非结构化数据设计，具有高容错性和扩展性。MapReduce负责并行计算，YARN负责资源管理，Hive是数据仓库工具，均不直接承担存储功能，因此正确答案为B。

8、在数据采集环节，用于将关系型数据库（如MySQL）中的数据批量导入到Hadoop集群的工具是？

A.Flume

B.Sqoop

C.Kafka

D.Hive

【答案】：B

解析：本题考察Hadoop生态系统中数据传输工具的功能。Sqoop（SQL-to-Hadoop）是专门用于在关系型数据库与Hadoop之间进行数据导入导出的工具，支持批量数据传输。A选项Flume主要用于日志数据采集，C选项Kafka是分布式消息队列，用于实时数据流传输，D选项Hive是数据仓库工具，用于数据查询和分析，因此正确答案为B。

9、以下哪个是基于内存计算的分布式计算引擎，适用于快速处理大规模数据？

2026年国开电大大数据技术形考题库100道及参考答案（综合卷）.docxVIP

2026年国开电大大数据技术形考题库100道及参考答案（综合卷）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档