- 0
- 0
- 约2.43万字
- 约 39页
- 2026-03-10 发布于河南
- 举报
2026年国开电大大数据技术形考题库100道
第一部分单选题(100题)
1、在大数据分析流程中,以下哪项属于数据预处理的典型操作?
A.处理缺失值和异常值
B.生成数据可视化报告
C.构建机器学习预测模型
D.对数据进行聚类分析
【答案】:A
解析:本题考察大数据分析流程中数据预处理的知识点。数据预处理是分析前对原始数据进行清洗、转换、集成等操作的环节,目的是提高数据质量。选项A“处理缺失值和异常值”属于数据清洗的典型操作,是预处理的核心内容;选项B“生成可视化报告”属于数据分析结果的展示环节;选项C“构建预测模型”和D“聚类分析”属于数据挖掘或建模环节,均不属于预处理。因此正确答案为A。
2、大数据的4V特征中,不包括以下哪一项?
A.多样性(Variety)
B.可变性(Variability)
C.速度(Velocity)
D.价值(Value)
【答案】:B
解析:本题考察大数据的4V核心特征知识点。大数据的4V特征包括Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值)。选项B的“可变性”并非大数据4V特征之一,属于干扰项,因此正确答案为B。
3、MongoDB数据库属于以下哪种类型的NoSQL数据库?
A.关系型数据库
B.文档型数据库
C.键值对数据库
D.列族型数据库
【答案】:B
解析:本题考察NoSQL数据库类型,MongoDB以JSON/BSON格式存储数据,属于文档型数据库;关系型数据库以MySQL为代表,键值对数据库如Redis,列族型数据库如HBase(适用于结构化高维数据)。因此正确答案为B。
4、关于数据仓库与数据湖的区别,以下描述正确的是?
A.数据仓库仅存储结构化数据,数据湖支持多类型原始数据
B.数据仓库支持实时分析,数据湖仅支持离线分析
C.数据仓库的数据更新速度快,数据湖的数据存储格式单一
D.数据仓库适合非结构化数据,数据湖适合结构化数据
【答案】:A
解析:本题考察数据仓库与数据湖的核心差异。数据仓库是面向分析的结构化数据存储,而数据湖是存储原始数据(结构化、半结构化、非结构化)的集中平台,支持多种数据类型(如文本、图像、日志)。B选项错误,数据湖通过Flink等工具可支持实时分析;C选项错误,数据湖的数据更新速度通常更快(原始数据实时写入),且支持多种存储格式;D选项错误,数据仓库适合结构化数据,数据湖适合原始多类型数据。因此A选项描述准确。
5、大数据在医疗领域的典型应用场景是?
A.智能交通信号控制(交通领域)
B.医疗影像辅助诊断(医疗领域)
C.电商个性化推荐(电商领域)
D.社交网络舆情监控(舆情领域)
【答案】:B
解析:本题考察大数据应用场景知识点。医疗影像辅助诊断利用大数据分析医学影像数据,辅助医生提高诊断效率;A属于交通领域的智能信号控制,C属于电商的个性化推荐,D属于舆情监控领域,均非医疗典型应用。因此选B。
6、大数据的“4V”特征中,描述数据产生和处理速度快的是哪个特征?
A.Volume(数据容量)
B.Variety(数据多样性)
C.Velocity(数据速度)
D.Veracity(数据真实性)
【答案】:C
解析:本题考察大数据的基本特征知识点。大数据“4V”特征中,Velocity特指数据产生和处理的速度(如实时流数据处理);Volume指数据规模巨大,Variety指数据类型多样(结构化、半结构化、非结构化),Veracity是数据质量维度(真实性),通常不属于4V核心特征。
7、下列哪项是大数据的特征之一,指数据产生和处理的速度极快?
A.Volume(数据量巨大)
B.Velocity(数据产生与处理速度快)
C.Variety(数据类型多样)
D.Value(数据价值密度高)
【答案】:B
解析:本题考察大数据的5V特征。A选项Volume指数据规模庞大,强调数据总量;B选项Velocity特指数据产生和处理的速度极快,符合题干描述;C选项Variety指数据类型多样(结构化、半结构化、非结构化);D选项Value指数据价值密度低(海量数据中有效信息占比小)。因此正确答案为B。
8、在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.MapReduce(分布式计算框架)
B.HDFS(分布式文件系统)
C.YARN(资源管理器)
D.Hive(数据仓库工具)
【答案】:B
解析:HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件存储系统,负责将文件分布式存储在多台服务器上;MapReduce是分布式计算框架,用于并行处理大数据;YARN负责集群资源管理和调
原创力文档

文档评论(0)