2026年国开电大大数据技术形考题库100道及参考答案(综合卷).docxVIP

  • 1
  • 0
  • 约2.45万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道及参考答案(综合卷).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、下列哪项不属于数据预处理的基本步骤?

A.数据清洗(处理缺失值、异常值)

B.数据加密(数据安全措施)

C.数据集成(合并多源数据)

D.数据规约(降维、压缩数据)

【答案】:B

解析:本题考察数据预处理步骤知识点。数据预处理基本步骤包括数据清洗、数据集成、数据转换、数据规约,主要解决数据质量问题。选项B“数据加密”属于数据安全技术,用于保护数据隐私,与数据预处理无关;A、C、D均为数据预处理的核心步骤。

2、数据预处理中,对数据进行去重、处理缺失值和异常值的步骤属于?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察数据预处理步骤知识点。数据清洗的核心是解决数据质量问题,包括去除重复数据、处理缺失值、异常值等;数据集成是合并多源数据,数据转换是格式/类型转换,数据规约是压缩数据规模,因此答案为A。

3、以下哪种计算模式适用于实时处理高并发的数据流场景?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.离线计算(OfflineComputing)

D.交互式计算(InteractiveComputing)

【答案】:B

解析:本题考察大数据计算模式的应用场景。流处理(StreamProcessing)专为实时处理持续高并发数据流设计(如Flink、SparkStreaming)。选项A(批处理)适用于历史数据批量分析;选项C(离线计算)与“实时”需求矛盾;选项D(交互式计算)侧重用户实时查询而非流处理,因此正确答案为B。

4、Hadoop分布式文件系统的英文缩写是?

A.HDFS

B.YARN

C.MapReduce

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS是HadoopDistributedFileSystem的缩写,是Hadoop的分布式文件系统,负责海量数据的存储;YARN是资源管理器,MapReduce是计算框架,Hive是数据仓库工具,因此A选项正确。

5、以下哪项不属于大数据在政务领域的典型应用?

A.智慧交通管理系统(如实时路况分析)

B.电子政务平台(如在线审批、信息公开)

C.城市规划决策支持系统(基于人口、交通等数据)

D.人脸识别门禁系统(企业或小区安防)

【答案】:D

解析:本题考察大数据政务应用场景知识点。政务领域应用聚焦公共服务与城市治理,如智慧交通(A)、电子政务(B)、城市规划(C)均属于政务范畴;而人脸识别门禁系统属于企业/安防领域的门禁管理,不属于政务应用,因此正确选项D。

6、Hadoop生态系统中负责分布式文件存储的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Spark

【答案】:C

解析:本题考察Hadoop生态系统核心组件的知识点。Hadoop是大数据分布式处理的基础框架,其核心组件包括:HDFS(分布式文件系统,负责存储海量数据)、MapReduce(分布式计算框架)、YARN(资源管理器)。选项A的MapReduce是计算引擎,B的YARN是资源调度系统,D的Spark是独立的内存计算框架(非Hadoop原生核心组件)。因此负责分布式文件存储的是HDFS,正确答案为C。

7、Hadoop生态系统中负责存储海量数据的核心组件是?

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:B

解析:HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量结构化/非结构化数据设计,具有高容错性和扩展性。MapReduce负责并行计算,YARN负责资源管理,Hive是数据仓库工具,均不直接承担存储功能,因此正确答案为B。

8、在数据采集环节,用于将关系型数据库(如MySQL)中的数据批量导入到Hadoop集群的工具是?

A.Flume

B.Sqoop

C.Kafka

D.Hive

【答案】:B

解析:本题考察Hadoop生态系统中数据传输工具的功能。Sqoop(SQL-to-Hadoop)是专门用于在关系型数据库与Hadoop之间进行数据导入导出的工具,支持批量数据传输。A选项Flume主要用于日志数据采集,C选项Kafka是分布式消息队列,用于实时数据流传输,D选项Hive是数据仓库工具,用于数据查询和分析,因此正确答案为B。

9、以下哪个是基于内存计算的分布式计算引擎,适用于快速处理大规模数据?

A.Hado

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档