- 0
- 0
- 约2.44万字
- 约 38页
- 2026-03-09 发布于四川
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、Hadoop生态系统中负责分布式文件存储的核心组件是?
A.MapReduce(分布式计算框架)
B.YARN(资源管理器)
C.HDFS(分布式文件系统)
D.Hive(数据仓库工具)
【答案】:C
解析:本题考察Hadoop核心组件知识点。HDFS是Hadoop的分布式文件系统,负责海量数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理与任务调度,Hive是基于Hadoop的数据仓库工具(非核心存储组件)。
2、在大数据预处理流程中,‘去除重复数据’属于以下哪个环节?
A.数据采集
B.数据清洗
C.数据集成
D.数据转换
【答案】:B
解析:本题考察大数据预处理环节知识点。数据清洗是对原始数据进行质量修复的过程,主要处理缺失值、异常值、重复值等问题;数据采集是获取数据的过程,数据集成是合并多源数据,数据转换是对数据格式进行标准化处理。去除重复数据属于数据清洗环节,正确答案为B。
3、以下哪种属于大数据分析中常用的无监督学习算法?
A.线性回归
B.K-means聚类
C.决策树分类
D.贝叶斯分类
【答案】:B
解析:本题考察大数据分析算法知识点。K-means聚类是典型的无监督学习算法,用于将数据自动分组(簇),无需预先标记;线性回归、决策树分类、贝叶斯分类均属于监督学习算法,需要有标注的训练数据。因此正确答案为B。
4、在大数据数据预处理阶段,处理缺失值、异常值等数据质量问题的步骤是?
A.数据清洗
B.数据集成
C.数据转换
D.数据归约
【答案】:A
解析:本题考察数据预处理步骤知识点。数据清洗主要用于处理数据中的缺失值、异常值、重复值等质量问题;数据集成是合并多源数据,数据转换是统一数据格式,数据归约是减少数据规模,均与处理缺失值无关,故正确答案为A。
5、在机器学习中,用于预测类别标签(如“垃圾邮件/非垃圾邮件”)的算法是?
A.逻辑回归(LogisticRegression)
B.线性回归(LinearRegression)
C.K-means聚类算法
D.PCA(主成分分析)降维算法
【答案】:A
解析:本题考察机器学习算法类型知识点。逻辑回归是典型的分类算法,用于预测离散类别;线性回归是回归算法(预测连续值);K-means是无监督聚类算法(无标签数据分组);PCA是无监督降维算法(减少特征维度),均不用于分类任务。
6、适用于实时分析用户行为数据流(如电商实时推荐)的大数据处理方式是?
A.批处理(BatchProcessing)
B.流处理(StreamProcessing)
C.分布式计算(DistributedComputing)
D.并行计算(ParallelComputing)
【答案】:B
解析:本题考察大数据处理技术类型的应用场景。批处理(A选项)适用于离线、批量数据处理(如T+1报表生成);流处理(B选项)支持实时处理持续产生的数据流,能满足实时分析需求;分布式计算(C选项)和并行计算(D选项)是计算模式,而非专门针对实时流数据的处理方式。因此实时用户行为分析应采用流处理。
7、Spark作为大数据处理框架,相比HadoopMapReduce的核心优势是?
A.基于内存计算,处理速度更快
B.仅支持结构化数据处理
C.只能进行离线批处理
D.必须运行在分布式文件系统HDFS上
【答案】:A
解析:本题考察Spark与HadoopMapReduce的技术差异。Spark的核心优势是基于内存计算,避免了HadoopMapReduce的磁盘IO瓶颈,因此处理速度更快(尤其适合迭代计算和实时分析)。B选项错误,Spark支持结构化、半结构化(如JSON)、非结构化(如文本)等多种数据类型;C选项错误,Spark不仅支持批处理,还支持SparkStreaming实时计算;D选项错误,Spark可运行在本地、YARN、Kubernetes等多种环境,不依赖HDFS。
8、Hadoop生态系统中,负责分布式存储的核心组件是?
A.HDFS(分布式文件系统)
B.MapReduce(计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)
【答案】:A
解析:本题考察Hadoop生态组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理,Hive提供数据仓库查询接口。因此正确答案为A。
9、大数据的核心特征(4V)不包括以下哪一项?
A.
您可能关注的文档
- 2026年国开电大道路工程技术形考题库100道及完整答案【全国通用】.docx
- 2026年国开电大当代中国政治制度形考题库100道附参考答案【考试直接用】.docx
- 2026年国开电大当代中国政治制度形考题库100道及参考答案(培优).docx
- 2026年国开电大当代世界经济与政治形考题库100道附参考答案(综合题).docx
- 2026年国开电大导游业务形考题库100道附答案(模拟题).docx
- 2026年国开电大导游业务形考题库100道含答案【预热题】.docx
- 2026年国开电大导游业务形考题库100道及参考答案【巩固】.docx
- 2026年国开电大大数据技术形考题库100道含答案【预热题】.docx
- 2026年国开电大大数据技术形考题库100道及一套答案.docx
- 2026年国开电大大作业形考题库100道附参考答案【达标题】.docx
最近下载
- 新人教版九年级下册化学全册课件.pptx VIP
- 圆周运动(二)圆周运动中的动力学问题.pdf VIP
- 普通党员2025年度组织生活会对照检查材料(五个对照).docx VIP
- 2025年春新课程能力培养七年级英语下册人教版答案.pdf VIP
- 2026年政府工作报告PPT课件.pptx VIP
- 普通党员2025年度组织生活会对照检查材料(五个对照).doc VIP
- (初中道法)2024年河南省中考《道德与法治》真题(解析版).pdf
- GB 311.1-2012 绝缘配合 第1部分:定义、原则和规则.docx VIP
- 慢加急性肝衰竭诊治指南(2025 年版).pptx VIP
- DB13(J)_T 8326-2019 村镇易地搬迁安置房屋质量标准.docx
原创力文档

文档评论(0)