2026年国开电大大数据技术概论形考题库100道及完整答案【网校专用】.docxVIP

下载本文档

0
0
约2.48万字
约 39页
2026-03-09 发布于四川
举报

2026年国开电大大数据技术概论形考题库100道及完整答案【网校专用】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、大数据的4V特征不包括以下哪一项？

A.Volume（容量）

B.Velocity（速度）

C.Veracity（真实性）

D.Value（价值）

【答案】：C

解析：本题考察大数据的4V特征知识点。大数据的核心特征通常定义为4V：Volume（数据量巨大）、Velocity（处理速度快）、Variety（数据类型多样）、Value（蕴含高价值）。选项C的Veracity（真实性）不属于4V特征，因此正确答案为C。

2、在大数据处理流程中，对原始数据进行去噪、填补缺失值等操作属于哪个环节？

A.数据采集

B.数据预处理

C.数据存储

D.数据分析

【答案】：B

解析：本题考察大数据处理流程知识点。数据预处理是对原始数据进行清洗（去噪、填补缺失值）、转换（格式标准化）、集成（多源数据合并）等操作的环节；A选项数据采集是获取原始数据；C选项数据存储是将处理后的数据持久化；D选项数据分析是基于预处理后的数据进行挖掘和建模。因此正确答案为B。

3、以下哪种技术适用于实时性要求高的场景（如实时监控、实时交易分析）？

A.批处理（如Hadoop离线计算）

B.流处理（如SparkStreaming/Flink）

C.时序数据库（存储时间序列数据）

D.数据挖掘（提取潜在模式）

【答案】：B

解析：本题考察大数据处理技术知识点。批处理（如Hadoop）适合处理历史/海量离线数据；流处理（如SparkStreaming、Flink）针对实时/高速数据流，适用于实时监控、高频交易分析等低延迟场景；时序数据库（如InfluxDB）是存储时间序列数据的工具，非处理技术；数据挖掘是从数据中提取模式的方法，非处理技术。因此正确答案为B。

4、以下哪项是大数据在电商领域的典型应用？

A.实时推荐系统

B.语音识别

C.传统报表生成

D.单机数据备份

【答案】：A

解析：本题考察大数据应用场景知识点。实时推荐系统依赖用户行为数据（如浏览、购买记录）进行个性化推荐，是电商领域大数据的典型应用；B选项语音识别属于人工智能技术，C选项传统报表生成是传统数据处理方式，D选项单机数据备份不属于大数据应用范畴，因此正确答案为A。

5、Hadoop生态系统中负责分布式计算的核心组件是？

A.HDFS（分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Hive（数据仓库工具）

【答案】：B

解析：本题考察Hadoop生态系统核心组件功能。HDFS（A）是分布式文件系统，负责海量数据存储；MapReduce（B）是Hadoop的核心分布式计算框架，通过Map和Reduce函数实现并行计算；YARN（C）是资源管理器，负责集群资源调度与分配；Hive（D）是基于Hadoop的SQL工具，用于数据仓库分析而非计算框架。因此负责分布式计算的是MapReduce，正确答案为B。

6、大数据的“5V”特征中，“Volume”对应的中文含义是？

A.数据量大小

B.数据处理速度

C.数据来源多样性

D.数据准确性

【答案】：A

解析：本题考察大数据的5V特征知识点。大数据的“5V”分别为Volume（数据量）、Velocity（处理速度）、Variety（多样性）、Veracity（准确性）、Value（价值密度）。选项B对应Velocity，选项C对应Variety，选项D对应Veracity，因此正确答案为A。

7、以下哪项是Hadoop分布式计算框架的核心组件？

A.MapReduce

B.Hive

C.HBase

D.Spark

【答案】：A

解析：本题考察Hadoop生态系统核心组件知识点。MapReduce是Hadoop分布式计算框架的核心组件，负责分布式并行计算任务；Hive是基于Hadoop的数据仓库工具，HBase是分布式NoSQL数据库，Spark是独立的内存计算引擎，均不属于Hadoop分布式计算框架的核心组件。因此正确答案为A。

8、在大数据处理流程中，对原始数据进行去重、填补缺失值、处理异常值等操作属于哪个关键步骤？

A.数据清洗（DataCleaning）

B.数据集成（DataIntegration）

C.数据变换（DataTransformation）

D.数据规约（DataReduction）

【答案】：A

解析：本题考察大数据预处理的核心步骤。数据清洗是处理原始数据质量问题的第一步，主要包括去重、填补缺失值、处理异常值等操作；B选项数据集成是合并多源数据，C选项数据变换是转换数据格式或标准化，D选项数据规约是减少数据量，均不符合题意。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术概论形考题库100道及完整答案【网校专用】.docxVIP