- 0
- 0
- 约2.49万字
- 约 39页
- 2026-03-10 发布于宁夏
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、在大数据预处理流程中,将不同来源的分散数据合并到统一存储系统的步骤是?
A.数据清洗
B.数据集成
C.数据转换
D.数据归约
【答案】:B
解析:本题考察数据预处理步骤的知识点。数据集成是指将多个数据源(如数据库、日志文件、API接口)合并为单一数据集,解决数据分散问题。A选项数据清洗是处理缺失值、异常值、重复值;C选项数据转换是对数据格式(如标准化、归一化)或类型进行调整;D选项数据归约是通过降维、采样等方式减少数据量。因此“合并多源数据”属于数据集成环节。
2、在Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?
A.HDFS(分布式文件系统)
B.YARN(资源管理器)
C.MapReduce(分布式计算框架)
D.Hive(数据仓库工具)
【答案】:B
解析:本题考察Hadoop生态系统核心组件功能。HDFS(A选项)是负责分布式文件存储的组件;YARN(B选项)是Hadoop2.x引入的资源管理器,主要负责集群资源的分配与任务调度;MapReduce(C选项)是基于YARN的分布式计算框架;Hive(D选项)是基于Hadoop的SQL查询工具。因此负责资源管理和调度的是YARN。
3、大数据技术在以下哪个行业的精准营销应用最广泛?
A.金融行业
B.传统制造业
C.农业种植
D.传统零售业
【答案】:A
解析:本题考察大数据技术的行业应用场景。金融行业(如银行、保险)通过大数据分析客户交易行为、信用记录、风险偏好等,可实现精准风控、个性化理财产品推荐等。A选项符合题意。B选项“传统制造业”更多依赖物联网、工业互联网优化生产流程;C选项“农业种植”数据规模较小,大数据应用场景有限;D选项“传统零售业”虽有数据应用,但相比金融行业的精准营销需求(如用户画像、风险评估),应用深度和广度较弱。因此正确答案为A。
4、在大数据技术架构中,负责对海量数据进行分布式存储的是哪一层?
A.采集层(负责数据的采集与接入)
B.存储层(负责数据的分布式存储)
C.计算层(负责数据的分布式计算)
D.分析层(负责数据的挖掘与分析)
【答案】:B
解析:本题考察大数据技术架构分层知识点。大数据技术架构通常分为采集层(如Flume、Kafka)、存储层(如HDFS、HBase)、计算层(如MapReduce、Spark)、分析层(如Hive、Impala)、应用层(如BI工具、业务系统)。其中存储层的核心功能是通过分布式文件系统(如HDFS)或NoSQL数据库实现海量数据的可靠存储,因此答案为B。
5、以下哪项是Python中用于大数据可视化的库?
A.Tableau
B.PowerBI
C.Matplotlib
D.Hadoop
【答案】:C
解析:本题考察大数据可视化工具知识点。Matplotlib(选项C)是Python的基础可视化库,可用于绘制折线图、柱状图等统计图表,适用于大数据分析中的数据可视化;Tableau(选项A)和PowerBI(选项B)是商业可视化工具;Hadoop(选项D)是分布式存储与计算框架,非可视化工具。正确答案为C。
6、下列算法中,属于分类算法的是?
A.K-Means(聚类算法)
B.Apriori(关联规则挖掘算法)
C.决策树(分类/回归算法)
D.PCA(主成分分析算法)
【答案】:C
解析:本题考察数据挖掘算法类型知识点。决策树(C选项)是典型的分类算法,可用于预测类别标签;K-Means(A选项)是无监督聚类算法,用于数据分组;Apriori(B选项)是关联规则挖掘算法,用于发现数据项之间的关联关系;PCA(D选项)是降维算法,用于减少特征维度。因此正确答案为C。
7、以下哪种处理模式适用于实时性要求高的流数据处理?
A.MapReduce(批处理框架)
B.Hive(离线数据仓库查询)
C.Flink(流处理框架)
D.HBase(分布式数据库)
【答案】:C
解析:本题考察大数据处理模式的适用场景。Flink是专为实时流数据处理设计的框架,支持低延迟、高吞吐的实时计算;A选项MapReduce是批处理框架,适合大规模离线数据;B选项Hive用于离线数据仓库的查询分析;D选项HBase是分布式存储系统,不负责实时处理。因此正确答案为C。
8、Spark与MapReduce相比,其主要优势在于?
A.只能处理磁盘上的数据
B.基于磁盘的迭代计算
C.内存计算,处理速度更快
D.仅支持批处理任务
【答案】:C
解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势是内存计算,减少了磁盘I/O操作,
原创力文档

文档评论(0)