人工智能训练师操作技能复习题及答案.pdfVIP

下载本文档

1
0
约6.28千字
约 11页
2026-03-04 发布于河南
举报

人工智能训练师操作技能复习题及答案.pdf

人工智能训练师操作技能复习题及

答案

一、数据标注与清洗

1.简述图像目标检测任务中，矩形框标注的关键

质量控制要点。

答案：需确保标注框完全包围目标主体，避免截断

或过度扩展；标注框坐标需精确到像素级，不同目标框

之间不能有重叠（除非任务明确允许）；需统一标注标

准，如对遮挡目标的处理（部分可见时是否标注）、小

目标的最小尺寸阈值（如小于16x16像素是否忽略）；

标注完成后需通过交叉验证（不同标注员独立标注同一

批数据后对比）和一致性检查（同一标注员对重复数据

的标注偏差）确保一致性，最终抽检比例不低于10%，

重点检查复杂场景（如光照变化、多目标重叠）的标注

准确性。

2.自然语言处理（NLP）中，意图分类标注时如何

处理“模糊意图”样本？

答案：首先需明确意图分类体系的层级结构（如一

级意图为“查询”“投诉”，二级为“查询天气”“投

诉物流”），对模糊样本需优先匹配最接近的上级意图；

若样本同时符合多个意图（如“如何退货且查询物

流”），需标注为多标签并记录冲突原因；建立“未定

义意图”临时类别，收集超过一定数量（如50条）后

触发分类体系更新；标注时需附加备注说明模糊点（如

“用户同时提到A和B，需确认业务优先级”），供后

续模型训练时作为权重调整依据。

3.表格数据清洗中，缺失值填补的常用方法及适

用场景？

答案：（1）删除法：适用于缺失率超过70%的特征

列，或样本缺失率超过50%的行（需确保删除后不影响

数据分布）；（2）均值/中位数填补：数值型特征无明

显异常值时用均值，存在极端值时用中位数；（3）众

数填补：分类型特征（如“性别”“职业”）；（4）

模型填补：用KNN算法（小数据集）或回归模型（大数

据集），基于其他特征预测缺失值，适用于特征间相关

性强的场景；（5）特殊值标记：如用“N/A”单独标识，

适用于缺失本身具有业务含义（如“未填写联系方式”

可能关联用户活跃度）的情况。

二、模型训练与调优

4.简述使用PyTorch训练深度学习模型时，数据

加载模块（DataLoader）的核心参数设置及原因。

答案：（1）batch_size：根据GPU显存大小调整，

通常设为2的幂次（如32、64），过大易导致内存溢

出，过小会降低训练效率；（2）shuffle=True：训练

集需打乱数据顺序，避免模型学习到错误的顺序依赖

（验证集和测试集设为False）；（3）num_workers：

设为CPU核心数的12倍（如8核CPU设为8），通过

多进程加速数据加载，避免GPU等待数据；（4）

pin_memory=True：将数据预加载到固定内存（pinned

memory），加快数据从内存到GPU的传输速度；（5）

drop_last=True：当数据集大小无法被batch_size整

除时，丢弃最后一个不完整批次，避免批次间数据量差

异影响梯度计算。

5.模型训练中出现“训练损失下降但验证损失上

升”的原因及解决方法？

答案：主要原因为过拟合，即模型在训练数据上过

度学习噪声或局部特征，泛化能力不足。解决方法包括：

（1）数据增强：对训练数据进行随机旋转、翻转（图

像）或同义词替换、随机删除（文本），增加数据多样

性；（2）正则化：添加L2正则化（权重衰减）或L1

正则化，限制模型复杂度；（3）早停法（Early

Stopping）：监控验证损失，连续N个周期（如5个）

无下降则提前终止训练；（4）Dropout层：在全连接

层后添加，随机失活部分神经元（如失活率0.5），强

制模型学习更鲁棒的特征；（5）减少模型复杂度：降

低网络层数、神经元数量或使用更简单的模型结构（如

将深层CNN替换为轻量级MobileNet）。

6.超参数调优时，网格搜索（GridSearch）与贝

叶斯优化（BayesianOptimization）的优缺点对比？

答案：网格搜索：优点是简单易实现，能覆盖所有

预设参数组合，结果可复现；缺点是计算成本高（参数

组合数呈指数增长），无法处理连续型参数（如学习率

0.0010.1），适合小范围离散参数（如优化器选择

Adam/SGD，层数35层）。贝叶斯优化：基于高

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

人工智能训练师操作技能复习题及答案.pdfVIP