人工智能训练师操作技能复习题及答案.pdfVIP

  • 1
  • 0
  • 约6.28千字
  • 约 11页
  • 2026-03-04 发布于河南
  • 举报

人工智能训练师操作技能复习题及答案.pdf

人工智能训练师操作技能复习题及

答案

一、数据标注与清洗

1.简述图像目标检测任务中,矩形框标注的关键

质量控制要点。

答案:需确保标注框完全包围目标主体,避免截断

或过度扩展;标注框坐标需精确到像素级,不同目标框

之间不能有重叠(除非任务明确允许);需统一标注标

准,如对遮挡目标的处理(部分可见时是否标注)、小

目标的最小尺寸阈值(如小于16x16像素是否忽略);

标注完成后需通过交叉验证(不同标注员独立标注同一

批数据后对比)和一致性检查(同一标注员对重复数据

的标注偏差)确保一致性,最终抽检比例不低于10%,

重点检查复杂场景(如光照变化、多目标重叠)的标注

准确性。

2.自然语言处理(NLP)中,意图分类标注时如何

处理“模糊意图”样本?

答案:首先需明确意图分类体系的层级结构(如一

级意图为“查询”“投诉”,二级为“查询天气”“投

诉物流”),对模糊样本需优先匹配最接近的上级意图;

若样本同时符合多个意图(如“如何退货且查询物

流”),需标注为多标签并记录冲突原因;建立“未定

义意图”临时类别,收集超过一定数量(如50条)后

触发分类体系更新;标注时需附加备注说明模糊点(如

“用户同时提到A和B,需确认业务优先级”),供后

续模型训练时作为权重调整依据。

3.表格数据清洗中,缺失值填补的常用方法及适

用场景?

答案:(1)删除法:适用于缺失率超过70%的特征

列,或样本缺失率超过50%的行(需确保删除后不影响

数据分布);(2)均值/中位数填补:数值型特征无明

显异常值时用均值,存在极端值时用中位数;(3)众

数填补:分类型特征(如“性别”“职业”);(4)

模型填补:用KNN算法(小数据集)或回归模型(大数

据集),基于其他特征预测缺失值,适用于特征间相关

性强的场景;(5)特殊值标记:如用“N/A”单独标识,

适用于缺失本身具有业务含义(如“未填写联系方式”

可能关联用户活跃度)的情况。

二、模型训练与调优

4.简述使用PyTorch训练深度学习模型时,数据

加载模块(DataLoader)的核心参数设置及原因。

答案:(1)batch_size:根据GPU显存大小调整,

通常设为2的幂次(如32、64),过大易导致内存溢

出,过小会降低训练效率;(2)shuffle=True:训练

集需打乱数据顺序,避免模型学习到错误的顺序依赖

(验证集和测试集设为False);(3)num_workers:

设为CPU核心数的12倍(如8核CPU设为8),通过

多进程加速数据加载,避免GPU等待数据;(4)

pin_memory=True:将数据预加载到固定内存(pinned

memory),加快数据从内存到GPU的传输速度;(5)

drop_last=True:当数据集大小无法被batch_size整

除时,丢弃最后一个不完整批次,避免批次间数据量差

异影响梯度计算。

5.模型训练中出现“训练损失下降但验证损失上

升”的原因及解决方法?

答案:主要原因为过拟合,即模型在训练数据上过

度学习噪声或局部特征,泛化能力不足。解决方法包括:

(1)数据增强:对训练数据进行随机旋转、翻转(图

像)或同义词替换、随机删除(文本),增加数据多样

性;(2)正则化:添加L2正则化(权重衰减)或L1

正则化,限制模型复杂度;(3)早停法(Early

Stopping):监控验证损失,连续N个周期(如5个)

无下降则提前终止训练;(4)Dropout层:在全连接

层后添加,随机失活部分神经元(如失活率0.5),强

制模型学习更鲁棒的特征;(5)减少模型复杂度:降

低网络层数、神经元数量或使用更简单的模型结构(如

将深层CNN替换为轻量级MobileNet)。

6.超参数调优时,网格搜索(GridSearch)与贝

叶斯优化(BayesianOptimization)的优缺点对比?

答案:网格搜索:优点是简单易实现,能覆盖所有

预设参数组合,结果可复现;缺点是计算成本高(参数

组合数呈指数增长),无法处理连续型参数(如学习率

0.0010.1),适合小范围离散参数(如优化器选择

Adam/SGD,层数35层)。贝叶斯优化:基于高

文档评论(0)

1亿VIP精品文档

相关文档