- 1
- 0
- 约2.47万字
- 约 39页
- 2026-03-09 发布于河南
- 举报
2026年国开电大大数据技术概论形考题库100道
第一部分单选题(100题)
1、Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?
A.HDFS(分布式文件系统)
B.MapReduce(计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)
【答案】:C
解析:本题考察Hadoop生态系统核心组件知识点。HDFS是分布式文件系统,负责数据存储;MapReduce是分布式计算框架,负责并行计算;YARN是资源管理器,负责集群资源调度与任务管理;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析。因此正确答案为C。
2、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是以下哪一项?
A.MapReduce(计算框架)
B.HDFS(分布式文件系统)
C.YARN(资源管理器)
D.ZooKeeper(协调服务)
【答案】:B
解析:本题考察Hadoop生态系统组件知识点。正确答案为B,HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,通过多副本机制实现高容错和高吞吐量;MapReduce是分布式计算框架,YARN负责资源管理和任务调度,ZooKeeper提供分布式协调服务,均不负责核心存储功能。
3、大数据处理流程中,数据经过采集、清洗和转换后,通常进入哪个环节?
A.数据采集(重复环节)
B.数据存储
C.数据可视化
D.数据挖掘
【答案】:B
解析:本题考察大数据处理流程知识点。大数据典型处理流程为:数据采集→预处理(清洗、转换)→数据存储→数据分析/挖掘→数据可视化。数据经过清洗和转换后,进入数据存储环节,以便后续处理和分析。选项A为原始环节,C和D是后续环节,因此正确答案为B。
4、以下哪个是Hadoop分布式文件系统的英文缩写?
A.HDFS
B.HBase
C.Hive
D.Hadoop
【答案】:A
解析:本题考察Hadoop生态系统核心组件知识点。HDFS是HadoopDistributedFileSystem的缩写,是Hadoop分布式文件系统,用于存储海量数据;HBase是HadoopDatabase(分布式NoSQL数据库),Hive是基于Hadoop的数据仓库工具,Hadoop是整体框架名称而非文件系统缩写。因此正确答案为A。
5、以下哪种数据库适合存储非结构化数据(如日志、图片、社交网络数据)?
A.MySQL(关系型数据库)
B.MongoDB(NoSQL文档数据库)
C.Oracle(关系型数据库)
D.SQLServer(关系型数据库)
【答案】:B
解析:本题考察数据库类型知识点。关系型数据库(如MySQL、Oracle、SQLServer)采用结构化表结构,适合存储结构化数据(如用户信息、交易记录);NoSQL数据库(如MongoDB)支持非结构化/半结构化数据,MongoDB作为文档型NoSQL数据库,以JSON-like文档存储,能灵活处理日志、图片等非结构化数据。因此正确答案为B。
6、在大数据预处理中,用于处理数据缺失值的常用方法是?
A.标准化
B.归一化
C.插值法
D.数据采集
【答案】:C
解析:本题考察大数据预处理技术。标准化和归一化属于数据转换(特征缩放)方法,用于统一数据量纲;数据采集是数据获取阶段操作;插值法(如线性插值、均值填充)通过已有数据估算缺失值,是处理缺失值的核心方法。因此正确答案为C。
7、以下哪种数据库属于列族数据库,适用于海量数据的随机读写和高并发场景?
A.HBase
B.MongoDB
C.Redis
D.CouchDB
【答案】:A
解析:本题考察NoSQL数据库类型。正确答案为A:HBase是典型列族数据库,基于HDFS存储,支持海量数据的随机读写和高并发访问,适合结构化数据实时查询。B选项MongoDB是文档型数据库(JSON格式);C选项Redis是键值型数据库(内存存储);D选项CouchDB是文档型数据库。因此HBase属于列族数据库,答案为A。
8、在大数据预处理流程中,以下哪项操作不属于数据清洗的范畴?
A.去除重复记录与异常值
B.填补缺失的用户注册时间数据
C.对敏感数据(如身份证号)进行脱敏处理
D.对数据特征(如身高)进行标准化转换
【答案】:D
解析:本题考察数据预处理中‘数据清洗’与‘特征工程’的区别。数据清洗主要处理数据质量问题,包括去重(A)、填补缺失值(B)、脱敏(C,保护隐私属于数据清洗的辅助环节);而选项D的‘特征标准化’属于特征工程(数据转换),目的是统一特征尺度,不属于数据清洗阶段。因此
原创力文档

文档评论(0)