2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docxVIP

  • 0
  • 0
  • 约2.47万字
  • 约 38页
  • 2026-03-10 发布于四川
  • 举报

2026年国开电大大数据技术形考题库100道附参考答案【a卷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、关于大数据与云计算的关系,以下描述正确的是?

A.大数据处理必须依赖云计算平台

B.云计算是大数据处理的重要基础设施

C.大数据和云计算是完全独立的技术体系

D.云计算仅用于存储大数据而不参与计算

【答案】:B

解析:云计算为大数据提供弹性计算和存储资源,是大数据处理的重要基础设施;A错误,大数据可通过本地集群处理;C错误,两者技术体系相互支撑;D错误,云计算支持计算服务。因此正确答案为B。

2、Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop的分布式存储核心组件,专为存储海量数据设计;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,协调集群计算资源分配;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析。因此正确答案为A。

3、以下哪种技术适用于实时流数据处理?

A.MapReduce(批处理框架)

B.SparkStreaming(流处理框架)

C.Hive(数据仓库工具)

D.HBase(分布式NoSQL数据库)

【答案】:B

解析:本题考察大数据处理技术应用场景知识点。SparkStreaming是专为实时流数据设计的框架,可对持续产生的数据流进行毫秒级或秒级实时分析;A选项MapReduce是经典批处理框架,适用于离线海量数据计算;C选项Hive基于批处理引擎(如MapReduce),主要用于离线数据分析;D选项HBase是分布式数据库,用于存储非结构化数据而非处理流数据。因此正确答案为B。

4、以下哪种计算模式适用于实时处理高并发的数据流场景?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.离线计算(OfflineComputing)

D.交互式计算(InteractiveComputing)

【答案】:B

解析:本题考察大数据计算模式的应用场景。流处理(StreamProcessing)专为实时处理持续高并发数据流设计(如Flink、SparkStreaming)。选项A(批处理)适用于历史数据批量分析;选项C(离线计算)与“实时”需求矛盾;选项D(交互式计算)侧重用户实时查询而非流处理,因此正确答案为B。

5、下列哪种技术适用于处理实时数据流(如传感器实时监控数据)?

A.HadoopMapReduce(批处理)

B.SparkStreaming(流处理)

C.Hive(离线SQL分析)

D.HBase(分布式存储)

【答案】:B

解析:本题考察大数据处理技术场景。A选项MapReduce是离线批处理框架,适合海量历史数据计算;B选项SparkStreaming是实时流处理引擎,支持毫秒级延迟的实时数据处理;C选项Hive基于HDFS的SQL分析工具,适用于离线批处理;D选项HBase是分布式NoSQL数据库,用于存储非结构化数据。因此正确答案为B。

6、在大数据预处理流程中,去除数据中的重复记录、填补缺失值属于哪个步骤?

A.数据清洗(处理脏数据)

B.数据集成(合并多源数据)

C.数据转换(格式与特征转换)

D.数据规约(降维与特征选择)

【答案】:A

解析:本题考察大数据预处理步骤的定义。数据预处理是数据质量提升的关键环节,各步骤功能如下:数据清洗(处理噪声、缺失值、重复记录等“脏数据”)、数据集成(合并不同数据源)、数据转换(如归一化、编码转换)、数据规约(减少数据规模但保留核心信息)。去除重复记录和填补缺失值属于数据清洗的典型操作,因此答案为A。

7、以下哪种系统主要用于支持企业的日常事务处理(如订单管理、用户登录等)?

A.OLTP(联机事务处理系统)

B.OLAP(联机分析处理系统)

C.数据仓库(DataWarehouse)

D.数据湖(DataLake)

【答案】:A

解析:本题考察OLTP与OLAP系统的区别知识点。OLTP(A)以事务处理为核心,针对短时间、高频次的业务操作(如订单创建、支付),强调实时性和高并发;OLAP(B)用于复杂数据分析(如销售报表、趋势预测),侧重决策支持。数据仓库(C)是OLAP的典型存储载体,用于整合历史数据;数据湖(D)存储原始数据(结构化、半结构化、非结构化),更偏向存储而非事务处理。因此答案为A。

8、以下哪个是Hadoop分布式文件系统(HDFS)的核心组件?

A.NameNode

B.JobTrac

文档评论(0)

1亿VIP精品文档

相关文档