- 1
- 0
- 约2.39万字
- 约 38页
- 2026-03-09 发布于河南
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、Hadoop生态系统中,负责分布式存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive
【答案】:A
解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop的分布式存储核心组件,专为存储海量数据设计;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,协调集群计算资源分配;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析。因此正确答案为A。
2、在大数据预处理中,当数据集中存在大量缺失值且数据类型为数值型时,最常用的处理方法是?
A.直接删除所有包含缺失值的样本
B.使用均值填充缺失值
C.使用众数填充缺失值
D.使用KNN算法进行缺失值预测
【答案】:B
解析:本题考察大数据数据预处理中缺失值处理的知识点。对于数值型数据,均值填充是最常用的缺失值处理方法(均值对整体趋势拟合较好);众数填充主要适用于类别型数据;直接删除会丢失大量数据信息,降低数据完整性;KNN算法属于复杂的机器学习方法,在大数据预处理中较少作为基础缺失值处理手段。因此正确答案为B。
3、大数据的4V特征中,不包括以下哪一项?
A.数据量巨大(Volume)
B.处理速度快(Velocity)
C.数据类型多样(Variety)
D.数据价值密度高(Value)
【答案】:D
解析:本题考察大数据的4V特征知识点。大数据的4V特征为:Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性/准确性)。其中“Value”并非4V标准特征,实际大数据中因数据量大导致价值密度通常较低,因此D选项“数据价值密度高”不属于4V特征。A、B、C均为4V的正确描述。
4、在大数据处理流程中,以下哪项不属于数据预处理阶段?
A.数据清洗
B.数据集成
C.数据存储
D.数据转换
【答案】:C
解析:本题考察大数据处理流程中数据预处理阶段知识点,数据预处理通常包括数据清洗(处理缺失值、异常值)、数据集成(合并多源数据)、数据转换(格式转换、标准化)等操作;而数据存储属于数据处理后的持久化环节,不属于预处理阶段,因此正确答案为C。
5、以下哪个大数据框架主要用于批处理计算?
A.SparkStreaming(实时流处理框架)
B.Storm(实时流处理框架)
C.Flink(实时流处理框架)
D.MapReduce(分布式批处理框架)
【答案】:D
解析:MapReduce是Hadoop的核心批处理计算框架,适用于离线大数据计算;SparkStreaming、Storm、Flink均支持实时流数据处理(SparkStreaming为微批处理,Storm/Flink为纯流处理)。因此正确答案为D。
6、在Hadoop生态系统中,负责存储海量数据的分布式文件系统是?
A.MapReduce(分布式计算框架)
B.HDFS(分布式文件系统)
C.YARN(资源管理器)
D.Spark(快速计算引擎)
【答案】:B
解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;A选项MapReduce是分布式计算框架,C选项YARN负责集群资源管理,D选项Spark是独立的快速计算引擎,均非分布式文件系统。
7、以下哪种算法属于大数据分析中的监督学习?
A.K-Means
B.线性回归
C.PCA
D.Apriori
【答案】:B
解析:本题考察大数据分析中的监督学习知识点。监督学习需要有标签的训练数据,线性回归通过已知特征与标签的映射关系进行预测,属于监督学习;K-Means是无监督聚类算法,PCA是无监督降维算法,Apriori是无监督关联规则挖掘算法。因此正确答案为B。
8、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?
A.HDFS(Hadoop分布式文件系统)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.ZooKeeper(分布式协调服务)
【答案】:A
解析:本题考察Hadoop生态系统核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态的基础,专为分布式存储海量数据设计;MapReduce是分布式计算框架,YARN负责资源管理与调度,ZooKeeper用于分布式协调,因此负责分布式存储的是HDFS,正确选项A。
9、以下哪项是Python中用于大数据可视化的库
您可能关注的文档
最近下载
- 教学述评的内涵意义及其实践路径探索.docx VIP
- 中药复方制剂开发研究.pptx VIP
- 热点十一+人工智能全球竞争加剧+科技自立自强护航国家发展(课件)备战2026年高考复习时政热点解读及命题探究(全国通用).pptx VIP
- 全国统一电力市场发展规划蓝皮书2025.pdf VIP
- 《中国共产党思想政治教育史》第四章 解放战争时期思想政治教育的成功实践.pptx VIP
- (QC成果)降低机电安装返工率.docx VIP
- 2025年河北省高职单招中职高考语文试题真题(含答案详解).pdf
- 2025年苏州工业职业技术学院单招笔试英语试题库含答案解析(5套试卷).docx VIP
- 急诊住院老年患者护理服务需求的调查分析及护理对策.pdf VIP
- 中国共产党思想政治教育史(第三版) 课件 第七章 资本主义经济运行规律.pptx VIP
原创力文档

文档评论(0)