2026年国开电大大数据技术概论形考题库100道及参考答案(满分必刷).docxVIP

  • 1
  • 0
  • 约2.44万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及参考答案(满分必刷).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、在Python数据分析中,用于对表格数据进行清洗、筛选和聚合操作的核心库是?

A.NumPy

B.Pandas

C.Matplotlib

D.Scikit-learn

【答案】:B

解析:本题考察Python数据分析库的功能。A选项NumPy是数值计算库,主要处理数组和矩阵,不直接支持表格数据操作;B选项Pandas是核心库,提供DataFrame数据结构,专门用于表格数据的清洗、筛选、聚合等操作;C选项Matplotlib是可视化库,用于数据图表绘制;D选项Scikit-learn是机器学习库,用于模型训练。因此正确答案为B。

2、以下哪种数据库属于非关系型数据库(NoSQL)?

A.MySQL

B.MongoDB

C.Oracle

D.SQLServer

【答案】:B

解析:本题考察数据库类型。关系型数据库(RDBMS)基于SQL和二维表结构,如MySQL、Oracle、SQLServer均为关系型数据库。MongoDB是文档型NoSQL数据库,采用非结构化JSON文档存储,无需预定义表结构,属于非关系型数据库,因此正确答案为B。

3、下列哪种计算框架更适合实时数据处理和迭代计算?

A.MapReduce

B.Spark

C.Hive

D.HBase

【答案】:B

解析:本题考察大数据计算框架的特点。MapReduce是基于磁盘的批处理框架,适合离线计算(A错);Spark是内存计算框架,支持迭代计算和实时流处理,性能远优于MapReduce(B对);Hive是数据仓库工具,用于SQL化查询分析(C错);HBase是NoSQL数据库,用于随机读写(D错)。

4、以下哪种场景适合使用流处理技术进行数据处理?

A.离线用户行为分析

B.实时监控系统告警

C.历史数据统计报表

D.大数据平台数据备份

【答案】:B

解析:本题考察大数据处理技术的应用场景知识点。流处理技术适用于实时或近实时数据处理(低延迟、高吞吐),如实时监控系统告警;而离线用户行为分析、历史数据统计报表属于批处理场景,大数据平台数据备份一般采用分布式存储而非流处理技术。因此正确答案为B。

5、大数据的4V特征中,不包含以下哪一项?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)

【答案】:D

解析:本题考察大数据的核心特征(4V)知识点。大数据的4V特征是指Volume(数据量)、Velocity(数据产生速度)、Variety(数据多样性)和Value(数据价值),而Validity(有效性)并非4V特征之一。因此正确答案为D,A、B、C均为4V特征的核心内容。

6、以下哪项属于大数据采集的非结构化数据类型?

A.企业ERP系统中的结构化交易记录

B.社交媒体平台的用户评论文本

C.传感器采集的标准化时间序列数据

D.关系型数据库中的表格数据

【答案】:B

解析:本题考察大数据数据类型的分类。结构化数据(A、D)具有固定格式和预定义字段(如数据库表);非结构化数据(B)无固定格式,如文本、图片、音频等,用户评论文本属于典型非结构化数据;C选项的标准化时间序列数据通常属于半结构化或结构化数据(如CSV格式的时间序列)。因此正确答案为B。

7、以下哪种数据库适用于存储微博评论(包含用户ID、评论内容、时间戳等半结构化信息)?

A.MySQL(关系型数据库)

B.MongoDB(文档型NoSQL数据库)

C.Redis(内存数据库)

D.HBase(列族数据库)

【答案】:B

解析:本题考察不同数据库的适用场景。A选项MySQL是关系型数据库,需固定表结构,无法灵活存储半结构化数据;B选项MongoDB是文档型NoSQL数据库,以JSON格式存储数据,天然支持半结构化信息(如微博评论的可变字段);C选项Redis是内存数据库,适合高频访问的缓存场景,不适合存储半结构化数据;D选项HBase是列族数据库,主要用于存储结构化日志数据。因此正确答案为B。

8、下列哪项不属于大数据数据清洗的常见操作?

A.处理缺失值

B.数据去重

C.数据标准化

D.数据挖掘

【答案】:D

解析:本题考察大数据数据清洗的核心目的。数据清洗主要解决数据质量问题,包括处理缺失值、异常值、重复数据及标准化数据格式;而数据挖掘是在数据清洗后,通过算法(如分类、聚类)从数据中提取价值的过程,不属于清洗环节。因此正确答案为D。

9、以下哪种大数据分析类型主要用于评估历史数据以找出‘为什么会发生’的原因?

A.描述性分析(总结历史数据‘是什么’)

B.诊断性分析(

文档评论(0)

1亿VIP精品文档

相关文档