- 1
- 0
- 约2.47万字
- 约 39页
- 2026-03-09 发布于河南
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、大数据的4V特征中,不包含以下哪一项?
A.Volume(容量)
B.Velocity(速度)
C.Veracity(真实性)
D.Variety(多样性)
【答案】:C
解析:本题考察大数据核心特征知识点。大数据的4V特征明确为Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值),而Veracity(真实性)不属于4V特征范畴,属于干扰项。其他选项均为4V特征的组成部分。
2、Hadoop生态系统中负责分布式计算任务调度和资源管理的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive
【答案】:C
解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统包含多个组件:A选项HDFS是分布式文件系统,用于存储海量数据;B选项MapReduce是分布式计算框架,实现并行计算;C选项YARN(YetAnotherResourceNegotiator)是资源管理器,负责集群资源的分配和调度,协调MapReduce等计算任务的执行;D选项Hive是基于Hadoop的数据仓库工具,提供类SQL查询语言。因此正确答案为C。
3、数据预处理阶段中,用于处理数据缺失值、异常值和重复数据的步骤是?
A.数据清洗
B.数据集成
C.数据转换
D.数据规约
【答案】:A
解析:本题考察数据预处理步骤知识点。数据清洗的核心作用是处理数据中的质量问题,包括缺失值填充、异常值修正、重复数据删除等;B选项数据集成是合并多个数据源,C选项数据转换是对数据格式或尺度进行标准化处理,D选项数据规约是通过降维或采样减少数据规模。因此正确答案为A。
4、在大数据预处理中,当数据集中存在大量缺失值且数据类型为数值型时,最常用的处理方法是?
A.直接删除所有包含缺失值的样本
B.使用均值填充缺失值
C.使用众数填充缺失值
D.使用KNN算法进行缺失值预测
【答案】:B
解析:本题考察大数据数据预处理中缺失值处理的知识点。对于数值型数据,均值填充是最常用的缺失值处理方法(均值对整体趋势拟合较好);众数填充主要适用于类别型数据;直接删除会丢失大量数据信息,降低数据完整性;KNN算法属于复杂的机器学习方法,在大数据预处理中较少作为基础缺失值处理手段。因此正确答案为B。
5、在数据预处理流程中,用于处理数据中的缺失值、异常值和重复数据的步骤是?
A.数据清洗
B.数据集成
C.数据转换
D.数据规约
【答案】:A
解析:本题考察数据预处理步骤知识点。数据预处理包括多个关键步骤:A选项数据清洗主要用于处理数据中的质量问题,如缺失值填充、异常值处理、重复数据删除等,确保数据的准确性和一致性;B选项数据集成是将多个数据源的数据合并到一个统一的数据存储中;C选项数据转换是对数据进行格式转换、标准化或归一化等操作;D选项数据规约是通过降维或特征选择减少数据维度,提高处理效率。因此正确答案为A。
6、Spark作为大数据处理框架,其相比HadoopMapReduce的显著优势在于?
A.支持内存计算,处理速度更快
B.仅适用于批处理任务
C.只能运行在HDFS之上
D.不支持实时数据处理
【答案】:A
解析:本题考察Spark与MapReduce的对比知识点。Spark的核心优势是支持内存计算,减少磁盘IO,因此处理速度远快于基于磁盘的MapReduce;选项B错误,Spark既支持批处理也支持流处理(SparkStreaming);选项C错误,Spark可运行在多种存储系统(如HDFS、S3、Cassandra等);选项D错误,SparkStreaming支持实时数据处理。
7、Hadoop生态系统中,负责分布式存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper
【答案】:A
解析:本题考察Hadoop核心组件知识点。HDFS(Hadoop分布式文件系统)是Hadoop生态中负责数据分布式存储的核心组件;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务,均不符合题意,故正确答案为A。
8、下列哪项是大数据的特征之一,指数据产生和处理的速度极快?
A.Volume(数据量巨大)
B.Velocity(数据产生与处理速度快)
C.Variety(数据类型多样)
D.Value(数据价值密度高)
【答案】:B
解析:本题考察大数据的5V特征。A选项Volume指数据规模庞大,强调数据总量;B选项Velocity特指数据产生和处理的速度极快,符合题干描述;C选项
您可能关注的文档
- 2026年国开电大道路工程技术形考题库100道附完整答案【典优】.docx
- 2026年国开电大当代中国政治制度形考题库100道附参考答案【研优卷】.docx
- 2026年国开电大当代中国政治制度形考题库100道及参考答案(培优).docx
- 2026年国开电大当代世界经济与政治形考题库100道附参考答案(综合卷).docx
- 2026年国开电大当代世界经济与政治形考题库100道及完整答案【有一套】.docx
- 2026年国开电大导游业务形考题库100道及答案(新).docx
- 2026年国开电大大数据技术概论形考题库100道含答案(巩固).docx
- 2026年国开电大大数据技术形考题库100道带答案(黄金题型).docx
- 2026年国开电大大作业形考题库100道附答案【突破训练】.docx
- 2026年国开电大大作业形考题库100道含答案【典型题】.docx
最近下载
- 学生退学家长知情同意书.docx VIP
- 计算机应用基础教程(Windows10+Office2016)PPT全套完整教学课件.pptx VIP
- 2024年江苏农牧科技职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析.docx
- Unit 2 课时2 Section A (2a-2e) 教学设计-八年级英语上册.docx VIP
- 慢阻肺病标准化筛查问卷、Borg CR10 评分表.docx VIP
- 招标代理服务方案.docx VIP
- AD832I机台操作指引.pdf VIP
- 2019版《普速铁路线路修理规则》(可编辑修改word版).pdf VIP
- KK_Mixly_V3四轴飞行器教程——算法篇.docx VIP
- 河南大学研究生学位论文基本要求与书写格式的.docx VIP
原创力文档

文档评论(0)