2025年大数据与人工智能考试试卷及答案.docxVIP

下载本文档

2
0
约8.35千字
约 22页
2025-10-22 发布于四川
举报

2025年大数据与人工智能考试试卷及答案.docx

2025年大数据与人工智能考试试卷及答案

一、单项选择题（每题2分，共30分）

1.以下关于Hadoop生态系统组件的描述中，错误的是（）

A.HDFS用于分布式存储海量数据，适合存储大文件

B.YARN负责资源管理和任务调度，分离了计算资源管理和任务调度功能

C.MapReduce是离线计算框架，适合实时性要求高的场景

D.HBase是基于HDFS的分布式列式数据库，支持随机读写

2.在机器学习中，以下属于无监督学习的是（）

A.预测房价（回归任务）

B.图像分类（标注数据训练）

C.用户分群（聚类分析）

D.垃圾邮件识别（二分类）

3.深度学习中，ReLU激活函数的主要优点是（）

A.解决梯度爆炸问题

B.避免过拟合

C.计算简单且缓解梯度消失

D.输出值范围在(1,1)之间

4.数据清洗过程中，处理缺失值的方法不包括（）

A.删除含有缺失值的整行数据

B.用特征均值/中位数填充

C.基于KNN算法预测缺失值

D.直接保留缺失值用于模型训练

5.分布式计算框架Spark中，RDD（弹性分布式数据集）的核心特性是（）

A.不可变、可分区、支持并行操作

B.实时性高，适合流式计算

C.存储结构化数据，支持SQL查询

D.仅支持内存计算，不支持磁盘缓存

6.在自然语言处理（NLP）中，BERT模型的核心创新是（）

A.采用双向Transformer的预训练

B.引入注意力机制

C.基于循环神经网络（RNN）

D.仅使用前向传播的单向上下文

7.以下不属于大数据4V特征的是（）

A.Volume（大量）

B.Velocity（高速）

C.Value（价值）

D.Variability（可变性）

8.决策树算法中，ID3算法选择分裂属性的依据是（）

A.信息增益

B.信息增益率

C.基尼系数

D.均方误差

9.关于Kafka消息队列的描述，正确的是（）

A.适用于低吞吐量、低延迟的场景

B.消息存储基于日志文件，支持持久化

C.仅支持一对一的消息传递模式

D.不支持消息的分区和副本机制

10.强化学习中，智能体（Agent）的核心目标是（）

A.最小化损失函数

B.通过与环境交互最大化累积奖励

C.学习数据的概率分布

D.优化监督学习的分类准确率

11.以下属于图神经网络（GNN）应用场景的是（）

A.图像识别（CNN）

B.社交网络关系预测

C.时间序列预测（LSTM）

D.文本情感分析（Transformer）

12.在数据仓库（DataWarehouse）设计中，星型模型与雪花模型的主要区别是（）

A.星型模型包含更多维度表，雪花模型维度表更少

B.星型模型维度表不进行规范化，雪花模型维度表规范化

C.星型模型仅支持OLTP，雪花模型支持OLAP

D.星型模型存储非结构化数据，雪花模型存储结构化数据

13.以下关于梯度下降优化算法的描述，错误的是（）

A.批量梯度下降（BGD）计算全局梯度，收敛稳定但速度慢

B.随机梯度下降（SGD）计算单个样本梯度，收敛速度快但波动大

C.小批量梯度下降（MBGD）结合了BGD和SGD的优点

D.Adam算法仅基于梯度的一阶矩估计，不考虑二阶矩

14.实时流计算框架Flink中，时间窗口（TimeWindow）的类型不包括（）

A.滚动窗口（TumblingWindow）

B.滑动窗口（SlidingWindow）

C.会话窗口（SessionWindow）

D.聚合窗口（AggregationWindow）

15.人工智能伦理中，“可解释性”的核心要求是（）

A.模型预测结果需符合人类常识

B.模型决策过程可被人类理解和追溯

C.模型训练数据需完全匿名化

D.模型需具备自我学习和进化能力

二、填空题（每题2分，共20分）

1.大数据处理的典型流程包括数据采集、________、数据存储、数据处理与分析、数据可视化。

2.机器学习中，交叉验证的主要目的是________。

3.卷积神经网络（CNN）中，卷积层的作用是________，池化层的作用是________。

4.分布式文件系统HDFS的默认块大小是________，这种设计的目的是________。

2025年大数据与人工智能考试试卷及答案.docxVIP

2025年大数据与人工智能考试试卷及答案.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档