2026年国开电大大数据技术形考题库100道及答案(全优).docxVIP

  • 0
  • 0
  • 约2.49万字
  • 约 39页
  • 2026-03-10 发布于宁夏
  • 举报

2026年国开电大大数据技术形考题库100道及答案(全优).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、在大数据预处理流程中,将不同来源的分散数据合并到统一存储系统的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据归约

【答案】:B

解析:本题考察数据预处理步骤的知识点。数据集成是指将多个数据源(如数据库、日志文件、API接口)合并为单一数据集,解决数据分散问题。A选项数据清洗是处理缺失值、异常值、重复值;C选项数据转换是对数据格式(如标准化、归一化)或类型进行调整;D选项数据归约是通过降维、采样等方式减少数据量。因此“合并多源数据”属于数据集成环节。

2、在Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.YARN(资源管理器)

C.MapReduce(分布式计算框架)

D.Hive(数据仓库工具)

【答案】:B

解析:本题考察Hadoop生态系统核心组件功能。HDFS(A选项)是负责分布式文件存储的组件;YARN(B选项)是Hadoop2.x引入的资源管理器,主要负责集群资源的分配与任务调度;MapReduce(C选项)是基于YARN的分布式计算框架;Hive(D选项)是基于Hadoop的SQL查询工具。因此负责资源管理和调度的是YARN。

3、大数据技术在以下哪个行业的精准营销应用最广泛?

A.金融行业

B.传统制造业

C.农业种植

D.传统零售业

【答案】:A

解析:本题考察大数据技术的行业应用场景。金融行业(如银行、保险)通过大数据分析客户交易行为、信用记录、风险偏好等,可实现精准风控、个性化理财产品推荐等。A选项符合题意。B选项“传统制造业”更多依赖物联网、工业互联网优化生产流程;C选项“农业种植”数据规模较小,大数据应用场景有限;D选项“传统零售业”虽有数据应用,但相比金融行业的精准营销需求(如用户画像、风险评估),应用深度和广度较弱。因此正确答案为A。

4、在大数据技术架构中,负责对海量数据进行分布式存储的是哪一层?

A.采集层(负责数据的采集与接入)

B.存储层(负责数据的分布式存储)

C.计算层(负责数据的分布式计算)

D.分析层(负责数据的挖掘与分析)

【答案】:B

解析:本题考察大数据技术架构分层知识点。大数据技术架构通常分为采集层(如Flume、Kafka)、存储层(如HDFS、HBase)、计算层(如MapReduce、Spark)、分析层(如Hive、Impala)、应用层(如BI工具、业务系统)。其中存储层的核心功能是通过分布式文件系统(如HDFS)或NoSQL数据库实现海量数据的可靠存储,因此答案为B。

5、以下哪项是Python中用于大数据可视化的库?

A.Tableau

B.PowerBI

C.Matplotlib

D.Hadoop

【答案】:C

解析:本题考察大数据可视化工具知识点。Matplotlib(选项C)是Python的基础可视化库,可用于绘制折线图、柱状图等统计图表,适用于大数据分析中的数据可视化;Tableau(选项A)和PowerBI(选项B)是商业可视化工具;Hadoop(选项D)是分布式存储与计算框架,非可视化工具。正确答案为C。

6、下列算法中,属于分类算法的是?

A.K-Means(聚类算法)

B.Apriori(关联规则挖掘算法)

C.决策树(分类/回归算法)

D.PCA(主成分分析算法)

【答案】:C

解析:本题考察数据挖掘算法类型知识点。决策树(C选项)是典型的分类算法,可用于预测类别标签;K-Means(A选项)是无监督聚类算法,用于数据分组;Apriori(B选项)是关联规则挖掘算法,用于发现数据项之间的关联关系;PCA(D选项)是降维算法,用于减少特征维度。因此正确答案为C。

7、以下哪种处理模式适用于实时性要求高的流数据处理?

A.MapReduce(批处理框架)

B.Hive(离线数据仓库查询)

C.Flink(流处理框架)

D.HBase(分布式数据库)

【答案】:C

解析:本题考察大数据处理模式的适用场景。Flink是专为实时流数据处理设计的框架,支持低延迟、高吞吐的实时计算;A选项MapReduce是批处理框架,适合大规模离线数据;B选项Hive用于离线数据仓库的查询分析;D选项HBase是分布式存储系统,不负责实时处理。因此正确答案为C。

8、Spark与MapReduce相比,其主要优势在于?

A.只能处理磁盘上的数据

B.基于磁盘的迭代计算

C.内存计算,处理速度更快

D.仅支持批处理任务

【答案】:C

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势是内存计算,减少了磁盘I/O操作,

文档评论(0)

1亿VIP精品文档

相关文档