2025年大数据与人工智能应用考试试题及答案.docxVIP

  • 3
  • 0
  • 约9.19千字
  • 约 24页
  • 2025-10-20 发布于四川
  • 举报

2025年大数据与人工智能应用考试试题及答案.docx

2025年大数据与人工智能应用考试试题及答案

一、单项选择题(每题2分,共30分)

1.以下哪项不属于大数据采集的典型场景?

A.电商平台用户点击流数据

B.医疗设备实时生命体征监测数据

C.企业内部年度财务报表

D.社交媒体用户发布的短视频元数据

答案:C

解析:大数据采集通常关注实时性、海量性或多源异构性数据,企业年度财务报表属于结构化、周期性的小范围数据,不属于典型大数据采集场景。

2.某电商平台需对用户行为数据进行实时分析(延迟要求1秒),最适合的计算框架是?

A.HadoopMapReduce

B.SparkRDD

C.Flink

D.Hive

答案:C

解析:Flink是流处理框架,支持毫秒级延迟的实时计算;MapReduce和SparkRDD主要用于批处理,Hive是数据仓库工具,均无法满足实时性要求。

3.在机器学习中,以下哪项操作属于特征工程中的“特征选择”?

A.对年龄字段进行分箱(如018岁、1930岁)

B.使用主成分分析(PCA)降低特征维度

C.计算用户近30天的平均消费金额作为新特征

D.通过卡方检验筛选与目标变量相关性高的特征

答案:D

解析:特征选择是从现有特征中筛选关键特征,卡方检验属于统计方法筛选;分箱是特征离散化,PCA是特征提取(降维),计算新特征是特征构造,均不属于选择。

4.以下关于深度学习中激活函数的描述,错误的是?

A.Sigmoid函数易导致梯度消失

B.ReLU函数在输入为负时梯度为0

C.Tanh函数输出范围是[1,1],比Sigmoid更易收敛

D.GELU(高斯误差线性单元)不依赖超参数

答案:D

解析:GELU的计算依赖于高斯分布的累积分布函数,本质上隐含了数据分布的超参数假设,因此“不依赖超参数”的描述错误。

5.某图像分类任务中,训练集包含1000张猫的图片和100张狗的图片,使用交叉熵损失函数训练模型后,模型对狗的分类准确率显著低于猫。最可能的原因是?

A.学习率设置过高

B.数据类别不平衡

C.卷积核尺寸过小

D.批量归一化(BatchNorm)未正确应用

答案:B

解析:训练集中狗的样本量远少于猫(1:10),模型易偏向多数类(猫),导致少数类(狗)准确率低,属于典型的类别不平衡问题。

6.以下哪项不属于自然语言处理(NLP)中的“序列标注”任务?

A.命名实体识别(NER)

B.词性标注(POSTagging)

C.情感分析(SentimentAnalysis)

D.语义角色标注(SRL)

答案:C

解析:序列标注是为文本中每个token分配标签(如“人名”“动词”),情感分析是对整个文本输出情感类别(如“积极”“消极”),属于文本分类任务。

7.在联邦学习(FederatedLearning)中,参与方(Client)上传至服务器的是?

A.原始数据

B.模型参数(如梯度、权重)

C.数据特征统计量(如均值、方差)

D.预测结果

答案:B

解析:联邦学习的核心是“数据不出域”,参与方仅上传模型更新参数(如梯度),服务器聚合参数后返回全局模型,避免原始数据泄露。

8.以下哪项技术最适合处理时间序列数据的异常检测?

A.支持向量机(SVM)分类

B.LSTM自编码器

C.Kmeans聚类

D.逻辑回归

答案:B

解析:LSTM自编码器可学习时间序列的正常模式,通过重构误差检测异常;SVM和逻辑回归需标注样本,Kmeans依赖聚类假设,均不如LSTM自编码器适合无监督时序异常检测。

9.某企业需构建用户画像系统,需整合用户的基本属性(年龄、性别)、行为数据(点击、购买)、社交关系(关注、评论)。以下哪项技术最适合实现多源异构数据的统一表示?

A.知识图谱(KnowledgeGraph)

B.协同过滤(CollaborativeFiltering)

C.主成分分析(PCA)

D.词袋模型(BagofWords)

答案:A

解析:知识图谱通过实体关系属性的三元组结构,可整合多源异构数据并建立语义关联,适合用户画像的多维度建模;协同过滤用于推荐,PCA用于降维,词袋模型用于文本,均不适用。

10.在计算机视觉中,以下哪项技术用于解决目标检测中的“小目标漏检”问题?

A.特征金字塔网络(FPN)

B.非极大值抑制(NMS)

C.感受野(ReceptiveField)调整

D.

文档评论(0)

1亿VIP精品文档

相关文档