- 1
- 0
- 约2.47万字
- 约 39页
- 2026-03-09 发布于河南
- 举报
2026年国开电大大数据技术概论形考题库100道
第一部分单选题(100题)
1、以下哪项不属于大数据的4V特征?
A.Volume
B.Velocity
C.Variety
D.Veracity
【答案】:D
解析:大数据的4V特征通常指Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(数据价值密度低但挖掘后价值高)。Veracity(数据真实性)不属于标准4V特征,属于干扰项,因此正确答案为D。
2、Hadoop生态系统中,哪个组件负责分布式文件存储?
A.MapReduce
B.HDFS
C.YARN
D.Hive
【答案】:B
解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;A选项MapReduce是分布式计算框架,负责并行任务处理;C选项YARN是资源管理器,负责集群资源调度;D选项Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为B。
3、ApacheSpark相比HadoopMapReduce的主要优势体现在?
A.处理速度更快(内存计算为主)
B.仅支持批处理任务(无法流处理)
C.不支持内存计算(依赖磁盘IO)
D.只能处理结构化数据(不支持非结构化)
【答案】:A
解析:本题考察Spark与MapReduce的技术差异。正确答案为A,Spark以内存计算为核心,将中间结果保存在内存中,避免MapReduce依赖的磁盘IO,因此迭代计算速度远快于MapReduce。B选项错误,Spark支持批处理(SparkSQL)和流处理(StructuredStreaming);C选项错误,Spark核心是内存计算框架;D选项错误,Spark支持结构化、半结构化(JSON)和非结构化(文本、图像)数据处理。因此A是Spark的核心优势。
4、以下哪项是Hadoop分布式文件系统(HDFS)的核心功能?
A.提供分布式并行计算能力
B.存储海量数据并通过副本机制提供高容错性
C.实时处理流数据(如SparkStreaming)
D.执行机器学习算法(如Mahout)
【答案】:B
解析:HDFS是分布式文件系统,核心功能是存储海量数据并通过多副本机制实现高容错性;A是MapReduce的功能,C属于流处理框架特性,D属于数据挖掘工具功能,均非HDFS核心功能。
5、大数据的“4V”特征中,指数据产生和处理的速度快的是哪个特征?
A.Volume(数据规模)
B.Velocity(数据速度)
C.Variety(数据多样性)
D.Value(数据价值密度)
【答案】:B
解析:本题考察大数据的核心特征知识点。大数据“4V”特征中,Velocity(速度)特指数据产生和处理的速度快,如实时数据流的处理需求;A选项Volume是指数据规模巨大;C选项Variety是指数据类型多样(结构化、半结构化、非结构化);D选项Value是指数据价值密度低(海量数据中有效信息占比小)。因此正确答案为B。
6、相比Hadoop的MapReduce,ApacheSpark的显著技术优势是?
A.仅支持批处理任务,不支持流处理
B.基于内存计算,计算速度更快
C.不支持SQL查询和机器学习算法
D.必须依赖HDFS才能运行,无法独立部署
【答案】:B
解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势是基于内存计算,避免了MapReduce多次磁盘IO操作,大幅提升计算速度;A错误,Spark同时支持批处理和流处理(如StructuredStreaming);C错误,Spark提供SparkSQL和MLlib等模块支持SQL查询和机器学习;D错误,Spark可独立部署,也可与Hadoop生态集成。因此正确答案为B。
7、大数据预处理阶段中,处理数据缺失值时,直接删除包含缺失值的样本属于哪种方法?
A.均值插补法
B.删除法
C.中位数插补法
D.众数插补法
【答案】:B
解析:本题考察数据预处理方法知识点。缺失值处理方法包括:删除法(直接删除含缺失值的样本,可能导致数据量减少)、插补法(用均值、中位数、众数等填充缺失值)。选项A、C、D均属于插补法,因此正确答案为B。
8、在大数据预处理流程中,“去除数据中的噪声、填补缺失值、处理重复记录”属于哪个步骤?
A.数据清洗
B.数据集成
C.数据转换
D.数据规约
【答案】:A
解析:本题考察大数据预处理的关键步骤。数据清洗的主要任务是处理数据质量问题,包括去除噪声、填补缺失值、
原创力文档

文档评论(0)