2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docxVIP

下载本文档

0
0
约2.47万字
约 38页
2026-03-10 发布于四川
举报

2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、关于大数据与云计算的关系，以下描述正确的是？

A.大数据处理必须依赖云计算平台

B.云计算是大数据处理的重要基础设施

C.大数据和云计算是完全独立的技术体系

D.云计算仅用于存储大数据而不参与计算

【答案】：B

解析：云计算为大数据提供弹性计算和存储资源，是大数据处理的重要基础设施；A错误，大数据可通过本地集群处理；C错误，两者技术体系相互支撑；D错误，云计算支持计算服务。因此正确答案为B。

2、Hadoop生态系统中，负责分布式存储的核心组件是？

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。HDFS（Hadoop分布式文件系统）是Hadoop的分布式存储核心组件，专为存储海量数据设计；MapReduce是分布式计算框架，负责数据处理逻辑；YARN是资源管理器，协调集群计算资源分配；Hive是基于Hadoop的数据仓库工具，用于数据查询与分析。因此正确答案为A。

3、以下哪种技术适用于实时流数据处理？

A.MapReduce（批处理框架）

B.SparkStreaming（流处理框架）

C.Hive（数据仓库工具）

D.HBase（分布式NoSQL数据库）

【答案】：B

解析：本题考察大数据处理技术应用场景知识点。SparkStreaming是专为实时流数据设计的框架，可对持续产生的数据流进行毫秒级或秒级实时分析；A选项MapReduce是经典批处理框架，适用于离线海量数据计算；C选项Hive基于批处理引擎（如MapReduce），主要用于离线数据分析；D选项HBase是分布式数据库，用于存储非结构化数据而非处理流数据。因此正确答案为B。

4、以下哪种计算模式适用于实时处理高并发的数据流场景？

A.批处理（BatchProcessing）

B.流处理（StreamProcessing）

C.离线计算（OfflineComputing）

D.交互式计算（InteractiveComputing）

【答案】：B

解析：本题考察大数据计算模式的应用场景。流处理（StreamProcessing）专为实时处理持续高并发数据流设计（如Flink、SparkStreaming）。选项A（批处理）适用于历史数据批量分析；选项C（离线计算）与“实时”需求矛盾；选项D（交互式计算）侧重用户实时查询而非流处理，因此正确答案为B。

5、下列哪种技术适用于处理实时数据流（如传感器实时监控数据）？

A.HadoopMapReduce（批处理）

B.SparkStreaming（流处理）

C.Hive（离线SQL分析）

D.HBase（分布式存储）

【答案】：B

解析：本题考察大数据处理技术场景。A选项MapReduce是离线批处理框架，适合海量历史数据计算；B选项SparkStreaming是实时流处理引擎，支持毫秒级延迟的实时数据处理；C选项Hive基于HDFS的SQL分析工具，适用于离线批处理；D选项HBase是分布式NoSQL数据库，用于存储非结构化数据。因此正确答案为B。

6、在大数据预处理流程中，去除数据中的重复记录、填补缺失值属于哪个步骤？

A.数据清洗（处理脏数据）

B.数据集成（合并多源数据）

C.数据转换（格式与特征转换）

D.数据规约（降维与特征选择）

【答案】：A

解析：本题考察大数据预处理步骤的定义。数据预处理是数据质量提升的关键环节，各步骤功能如下：数据清洗（处理噪声、缺失值、重复记录等“脏数据”）、数据集成（合并不同数据源）、数据转换（如归一化、编码转换）、数据规约（减少数据规模但保留核心信息）。去除重复记录和填补缺失值属于数据清洗的典型操作，因此答案为A。

7、以下哪种系统主要用于支持企业的日常事务处理（如订单管理、用户登录等）？

A.OLTP（联机事务处理系统）

B.OLAP（联机分析处理系统）

C.数据仓库（DataWarehouse）

D.数据湖（DataLake）

【答案】：A

解析：本题考察OLTP与OLAP系统的区别知识点。OLTP（A）以事务处理为核心，针对短时间、高频次的业务操作（如订单创建、支付），强调实时性和高并发；OLAP（B）用于复杂数据分析（如销售报表、趋势预测），侧重决策支持。数据仓库（C）是OLAP的典型存储载体，用于整合历史数据；数据湖（D）存储原始数据（结构化、半结构化、非结构化），更偏向存储而非事务处理。因此答案为A。

8、以下哪个是Hadoop分布式文件系统（HDFS）的核心组件？

A.NameNode

B.JobTrac

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docxVIP