2025年大数据与人工智能应用考试试题及答案.docxVIP

下载本文档

3
0
约9.19千字
约 24页
2025-10-20 发布于四川
举报

2025年大数据与人工智能应用考试试题及答案.docx

2025年大数据与人工智能应用考试试题及答案

一、单项选择题（每题2分，共30分）

1.以下哪项不属于大数据采集的典型场景？

A.电商平台用户点击流数据

B.医疗设备实时生命体征监测数据

C.企业内部年度财务报表

D.社交媒体用户发布的短视频元数据

答案：C

解析：大数据采集通常关注实时性、海量性或多源异构性数据，企业年度财务报表属于结构化、周期性的小范围数据，不属于典型大数据采集场景。

2.某电商平台需对用户行为数据进行实时分析（延迟要求1秒），最适合的计算框架是？

A.HadoopMapReduce

B.SparkRDD

C.Flink

D.Hive

答案：C

解析：Flink是流处理框架，支持毫秒级延迟的实时计算；MapReduce和SparkRDD主要用于批处理，Hive是数据仓库工具，均无法满足实时性要求。

3.在机器学习中，以下哪项操作属于特征工程中的“特征选择”？

A.对年龄字段进行分箱（如018岁、1930岁）

B.使用主成分分析（PCA）降低特征维度

C.计算用户近30天的平均消费金额作为新特征

D.通过卡方检验筛选与目标变量相关性高的特征

答案：D

解析：特征选择是从现有特征中筛选关键特征，卡方检验属于统计方法筛选；分箱是特征离散化，PCA是特征提取（降维），计算新特征是特征构造，均不属于选择。

4.以下关于深度学习中激活函数的描述，错误的是？

A.Sigmoid函数易导致梯度消失

B.ReLU函数在输入为负时梯度为0

C.Tanh函数输出范围是[1,1]，比Sigmoid更易收敛

D.GELU（高斯误差线性单元）不依赖超参数

答案：D

解析：GELU的计算依赖于高斯分布的累积分布函数，本质上隐含了数据分布的超参数假设，因此“不依赖超参数”的描述错误。

5.某图像分类任务中，训练集包含1000张猫的图片和100张狗的图片，使用交叉熵损失函数训练模型后，模型对狗的分类准确率显著低于猫。最可能的原因是？

A.学习率设置过高

B.数据类别不平衡

C.卷积核尺寸过小

D.批量归一化（BatchNorm）未正确应用

答案：B

解析：训练集中狗的样本量远少于猫（1:10），模型易偏向多数类（猫），导致少数类（狗）准确率低，属于典型的类别不平衡问题。

6.以下哪项不属于自然语言处理（NLP）中的“序列标注”任务？

A.命名实体识别（NER）

B.词性标注（POSTagging）

C.情感分析（SentimentAnalysis）

D.语义角色标注（SRL）

答案：C

解析：序列标注是为文本中每个token分配标签（如“人名”“动词”），情感分析是对整个文本输出情感类别（如“积极”“消极”），属于文本分类任务。

7.在联邦学习（FederatedLearning）中，参与方（Client）上传至服务器的是？

A.原始数据

B.模型参数（如梯度、权重）

C.数据特征统计量（如均值、方差）

D.预测结果

答案：B

解析：联邦学习的核心是“数据不出域”，参与方仅上传模型更新参数（如梯度），服务器聚合参数后返回全局模型，避免原始数据泄露。

8.以下哪项技术最适合处理时间序列数据的异常检测？

A.支持向量机（SVM）分类

B.LSTM自编码器

C.Kmeans聚类

D.逻辑回归

答案：B

解析：LSTM自编码器可学习时间序列的正常模式，通过重构误差检测异常；SVM和逻辑回归需标注样本，Kmeans依赖聚类假设，均不如LSTM自编码器适合无监督时序异常检测。

9.某企业需构建用户画像系统，需整合用户的基本属性（年龄、性别）、行为数据（点击、购买）、社交关系（关注、评论）。以下哪项技术最适合实现多源异构数据的统一表示？

A.知识图谱（KnowledgeGraph）

B.协同过滤（CollaborativeFiltering）

C.主成分分析（PCA）

D.词袋模型（BagofWords）

答案：A

解析：知识图谱通过实体关系属性的三元组结构，可整合多源异构数据并建立语义关联，适合用户画像的多维度建模；协同过滤用于推荐，PCA用于降维，词袋模型用于文本，均不适用。

10.在计算机视觉中，以下哪项技术用于解决目标检测中的“小目标漏检”问题？

A.特征金字塔网络（FPN）

B.非极大值抑制（NMS）

C.感受野（ReceptiveField）调整

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年大数据与人工智能应用考试试题及答案.docxVIP