- 0
- 0
- 约2.51万字
- 约 39页
- 2026-03-09 发布于河南
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、在Hadoop生态系统中,负责分布式存储的核心组件是?
A.MapReduce
B.HDFS
C.YARN
D.Hive
【答案】:B
解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统中,HDFS(HadoopDistributedFileSystem)是分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的核心组件是HDFS,正确答案为B。
2、在大数据分析流程中,哪个步骤主要用于处理数据中的缺失值和异常值?
A.数据采集
B.数据清洗
C.数据挖掘
D.数据可视化
【答案】:B
解析:数据清洗是大数据分析的关键前置步骤,核心任务是处理原始数据中的噪声、缺失值、异常值、重复数据及格式不一致等问题,确保数据质量;数据采集是获取原始数据的过程,数据挖掘是从数据中提取模式,数据可视化是结果展示环节,故正确答案为B。
3、以下哪种数据库不属于大数据存储的典型技术?
A.HBase
B.MongoDB
C.MySQL
D.HDFS
【答案】:C
解析:本题考察大数据存储技术知识点。HBase(选项A)是基于HDFS的分布式NoSQL数据库,MongoDB(选项B)是文档型NoSQL数据库,均为大数据常用存储工具;HDFS(选项D)是Hadoop生态的分布式文件系统,用于存储海量数据。而MySQL(选项C)是传统关系型数据库,通常用于结构化数据的中小规模存储,不属于大数据典型存储技术。正确答案为C。
4、Spark与传统MapReduce相比,显著的性能优势主要得益于?
A.基于内存计算
B.使用磁盘存储数据
C.仅支持批处理任务
D.单节点并行计算
【答案】:A
解析:Spark采用内存计算模型,将中间数据存储在内存中,大幅减少磁盘IO操作,而MapReduce依赖磁盘读写中间结果,导致Spark处理速度更快;Spark支持内存+磁盘混合存储,并非仅用磁盘;Spark支持批处理、流处理等多种任务,且是分布式并行计算框架,非单节点。因此A正确。
5、在大数据数据挖掘中,以下哪种算法常用于将数据对象自动分组为具有相似特征的簇?
A.线性回归(LinearRegression)
B.K-Means聚类算法
C.决策树(DecisionTree)
D.Apriori关联规则算法
【答案】:B
解析:本题考察数据挖掘典型算法的应用场景知识点。K-Means是经典的聚类算法,核心是将数据对象按相似度自动分组为K个簇;线性回归用于预测连续值(回归分析);决策树用于分类或回归任务(通过树结构划分特征);Apriori用于挖掘关联规则(如“购买A的用户也常购买B”)。选项A、C、D均非聚类分组算法,因此正确答案为B。
6、大数据的5V特征中,描述数据产生和处理速度的是以下哪一项?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Veracity(真实性)
【答案】:B
解析:本题考察大数据的5V核心特征知识点。大数据的5V特征包括Volume(容量,数据规模)、Velocity(速度,数据产生和处理的速度)、Variety(多样性,数据类型复杂)、Veracity(真实性,数据准确性)、Value(价值,数据蕴含的价值)。选项A是容量特征,选项C是多样性特征,选项D是真实性特征,均不符合题意,因此正确答案为B。
7、大数据的5V特征中,不包括以下哪一项?
A.Volume(数据容量)
B.Velocity(处理速度)
C.Viscosity(数据粘度)
D.Veracity(数据真实性)
【答案】:C
解析:本题考察大数据5V核心特征知识点,5V特征包括Volume(数据量规模)、Velocity(处理/生成速度)、Variety(数据多样性)、Value(数据价值密度)、Veracity(数据真实性)。Viscosity(粘度)并非大数据特征,属于干扰项,因此正确答案为C。
8、适用于实时分析用户行为数据流(如电商实时推荐)的大数据处理方式是?
A.批处理(BatchProcessing)
B.流处理(StreamProcessing)
C.分布式计算(DistributedComputing)
D.并行计算(ParallelComputing)
【答案】:B
解析:本题考察大数据处理技术类型的应用场景。批处理(A选项)适用于离线、批量数据处理(如T+1报表生成);流处理(B选项)支持实时处理持续产生的数据流
您可能关注的文档
最近下载
- TB 10303-2020 铁路桥涵工程施工安全技术规程.docx VIP
- GJB 438C-2021 军用软件开发文档通用要求 (高清,带章).docx VIP
- 2025软件开发项目技术管理规范.docx VIP
- 融合时段划分的细粒度用电行为模式挖掘方法.pdf VIP
- 人教版三年级下册数学全册新质教学课件(配2026年春改版教材).pptx
- 锂电池安全培训课件.pptx VIP
- 高中英语教学竞赛公开课、高考复习课件——高三英语二轮复习各种做题技巧课件(全国卷地区适用).pptx VIP
- L13S8 排水工程山东 建筑 图集.docx VIP
- 07K304 空调机房设计与安装图集.pdf VIP
- 服务中心党支部2025年度组织生活会班子对照检查材料.docx VIP
原创力文档

文档评论(0)