2026年国开电大大数据技术形考题库100道及答案（全优）.docxVIP

下载本文档

0
0
约2.49万字
约 39页
2026-03-10 发布于宁夏
举报

2026年国开电大大数据技术形考题库100道及答案（全优）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据预处理流程中，将不同来源的分散数据合并到统一存储系统的步骤是？

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】：B

解析：本题考察数据预处理步骤的知识点。数据集成是指将多个数据源（如数据库、日志文件、API接口）合并为单一数据集，解决数据分散问题。A选项数据清洗是处理缺失值、异常值、重复值；C选项数据转换是对数据格式（如标准化、归一化）或类型进行调整；D选项数据归约是通过降维、采样等方式减少数据量。因此“合并多源数据”属于数据集成环节。

2、在Hadoop生态系统中，负责分布式计算任务调度与资源管理的核心组件是？

A.HDFS（分布式文件系统）

B.YARN（资源管理器）

C.MapReduce（分布式计算框架）

D.Hive（数据仓库工具）

【答案】：B

解析：本题考察Hadoop生态系统核心组件功能。HDFS（A选项）是负责分布式文件存储的组件；YARN（B选项）是Hadoop2.x引入的资源管理器，主要负责集群资源的分配与任务调度；MapReduce（C选项）是基于YARN的分布式计算框架；Hive（D选项）是基于Hadoop的SQL查询工具。因此负责资源管理和调度的是YARN。

3、大数据技术在以下哪个行业的精准营销应用最广泛？

A.金融行业

B.传统制造业

C.农业种植

D.传统零售业

【答案】：A

解析：本题考察大数据技术的行业应用场景。金融行业（如银行、保险）通过大数据分析客户交易行为、信用记录、风险偏好等，可实现精准风控、个性化理财产品推荐等。A选项符合题意。B选项“传统制造业”更多依赖物联网、工业互联网优化生产流程；C选项“农业种植”数据规模较小，大数据应用场景有限；D选项“传统零售业”虽有数据应用，但相比金融行业的精准营销需求（如用户画像、风险评估），应用深度和广度较弱。因此正确答案为A。

4、在大数据技术架构中，负责对海量数据进行分布式存储的是哪一层？

A.采集层（负责数据的采集与接入）

B.存储层（负责数据的分布式存储）

C.计算层（负责数据的分布式计算）

D.分析层（负责数据的挖掘与分析）

【答案】：B

解析：本题考察大数据技术架构分层知识点。大数据技术架构通常分为采集层（如Flume、Kafka）、存储层（如HDFS、HBase）、计算层（如MapReduce、Spark）、分析层（如Hive、Impala）、应用层（如BI工具、业务系统）。其中存储层的核心功能是通过分布式文件系统（如HDFS）或NoSQL数据库实现海量数据的可靠存储，因此答案为B。

5、以下哪项是Python中用于大数据可视化的库？

A.Tableau

B.PowerBI

C.Matplotlib

D.Hadoop

【答案】：C

解析：本题考察大数据可视化工具知识点。Matplotlib（选项C）是Python的基础可视化库，可用于绘制折线图、柱状图等统计图表，适用于大数据分析中的数据可视化；Tableau（选项A）和PowerBI（选项B）是商业可视化工具；Hadoop（选项D）是分布式存储与计算框架，非可视化工具。正确答案为C。

6、下列算法中，属于分类算法的是？

A.K-Means（聚类算法）

B.Apriori（关联规则挖掘算法）

C.决策树（分类/回归算法）

D.PCA（主成分分析算法）

【答案】：C

解析：本题考察数据挖掘算法类型知识点。决策树（C选项）是典型的分类算法，可用于预测类别标签；K-Means（A选项）是无监督聚类算法，用于数据分组；Apriori（B选项）是关联规则挖掘算法，用于发现数据项之间的关联关系；PCA（D选项）是降维算法，用于减少特征维度。因此正确答案为C。

7、以下哪种处理模式适用于实时性要求高的流数据处理？

A.MapReduce（批处理框架）

B.Hive（离线数据仓库查询）

C.Flink（流处理框架）

D.HBase（分布式数据库）

【答案】：C

解析：本题考察大数据处理模式的适用场景。Flink是专为实时流数据处理设计的框架，支持低延迟、高吞吐的实时计算；A选项MapReduce是批处理框架，适合大规模离线数据；B选项Hive用于离线数据仓库的查询分析；D选项HBase是分布式存储系统，不负责实时处理。因此正确答案为C。

8、Spark与MapReduce相比，其主要优势在于？

A.只能处理磁盘上的数据

B.基于磁盘的迭代计算

C.内存计算，处理速度更快

D.仅支持批处理任务

【答案】：C

解析：本题考察Spark与MapReduce的技术差异。Spark的核心优势是内存计算，减少了磁盘I/O操作，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道及答案（全优）.docxVIP