2026年国开电大大数据技术形考题库100道含答案【a卷】.docxVIP

下载本文档

0
0
约2.48万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道含答案【a卷】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据预处理阶段，以下哪项操作主要用于处理数据中的重复记录和不一致数据？

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】：A

解析：本题考察大数据预处理步骤。数据清洗的核心任务包括处理缺失值、异常值、重复记录和不一致数据；数据集成是合并多个数据源；数据转换是对数据格式或类型进行标准化；数据规约是通过降维或采样减少数据量。因此处理重复和不一致数据属于数据清洗范畴，正确答案为A。

2、以下哪种工具通常用于企业级大数据的交互式可视化分析？

A.Excel（基础数据处理工具）

B.Tableau（专业可视化分析工具）

C.ECharts（前端可视化库）

D.PowerShell（脚本语言）

【答案】：B

解析：本题考察大数据可视化工具知识点。Tableau是专业的企业级交互式可视化分析工具，支持拖拽式操作和多维度数据探索；Excel虽能可视化但处理大数据能力有限；ECharts主要用于网页端数据可视化嵌入；PowerShell是脚本执行工具，非可视化工具。因此选B。

3、以下哪种算法属于数据挖掘中的分类算法？

A.K-Means

B.Apriori

C.决策树

D.PCA

【答案】：C

解析：本题考察数据挖掘算法类型。决策树是典型的分类算法，通过构建树状模型对数据进行分类预测；K-Means是无监督学习的聚类算法；Apriori用于挖掘关联规则（如购物篮分析）；PCA（主成分分析）是降维算法。因此正确答案为C。

4、以下哪个是ApacheSpark生态系统中用于实时流数据处理的组件？

A.SparkSQL

B.SparkStreaming

C.SparkMLlib

D.SparkGraphX

【答案】：B

解析：本题考察Spark生态系统组件知识点。SparkStreaming是Spark的实时流处理组件，支持高吞吐量数据流的实时分析；SparkSQL用于结构化数据查询，SparkMLlib是机器学习库，SparkGraphX用于图计算。实时流处理对应SparkStreaming，选B。

5、关于数据仓库与数据湖的区别，以下描述正确的是？

A.数据仓库仅存储结构化数据，数据湖支持多类型原始数据

B.数据仓库支持实时分析，数据湖仅支持离线分析

C.数据仓库的数据更新速度快，数据湖的数据存储格式单一

D.数据仓库适合非结构化数据，数据湖适合结构化数据

【答案】：A

解析：本题考察数据仓库与数据湖的核心差异。数据仓库是面向分析的结构化数据存储，而数据湖是存储原始数据（结构化、半结构化、非结构化）的集中平台，支持多种数据类型（如文本、图像、日志）。B选项错误，数据湖通过Flink等工具可支持实时分析；C选项错误，数据湖的数据更新速度通常更快（原始数据实时写入），且支持多种存储格式；D选项错误，数据仓库适合结构化数据，数据湖适合原始多类型数据。因此A选项描述准确。

6、在大数据技术架构中，负责对数据进行分布式并行计算的是哪一层？

A.基础设施层

B.数据存储层

C.数据处理层

D.数据应用层

【答案】：C

解析：大数据技术架构通常分为四层：基础设施层（提供硬件、虚拟化等基础资源）、数据存储层（存储结构化/非结构化数据）、数据处理层（对数据进行分布式并行计算，含批处理、流处理等）、数据应用层（基于处理后的数据进行分析、可视化等）。选项C“数据处理层”负责计算任务，因此正确答案为C。

7、在Hadoop生态系统中，负责存储海量结构化与非结构化数据的核心组件是？

A.HDFS（分布式文件系统）

B.MapReduce（分布式计算框架）

C.YARN（资源管理器）

D.Spark（内存计算引擎）

【答案】：A

解析：本题考察Hadoop核心组件功能。HDFS（HadoopDistributedFileSystem）是Hadoop生态系统的分布式文件系统，专门用于存储海量数据；MapReduce是分布式计算框架，YARN是资源管理系统，Spark是独立的内存计算引擎（非Hadoop原生核心组件）。因此正确答案为A。

8、以下哪项属于数据挖掘的典型应用场景？

A.对原始数据进行去重清洗

B.通过聚类算法实现客户细分

C.从传感器实时采集数据

D.将数据转换为图表进行展示

【答案】：B

解析：本题考察数据挖掘的定义及应用。数据挖掘是从大量数据中通过算法发现潜在模式或知识的过程。B选项“通过聚类算法实现客户细分”属于数据挖掘（聚类分析）的典型应用，通过对客户特征数据分组，识别不同客户群体。A选项“数据清洗”属于数据预处理环节，C选项“数据采集”是数据获取阶段

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道含答案【a卷】.docxVIP