2026年计算机视觉工程师考试题库（附答案和详细解析）（0106）.docxVIP

下载本文档

0
0
约8.78千字
约 12页
2026-01-24 发布于上海
举报

2026年计算机视觉工程师考试题库（附答案和详细解析）（0106）.docx

计算机视觉工程师考试试卷（总分100分）

一、单项选择题（共10题，每题1分，共10分）

卷积神经网络（CNN）中，卷积操作的核心作用是：

A.对输入特征进行全局信息融合

B.提取输入数据的局部空间特征

C.降低特征图的空间维度

D.直接输出分类概率结果

答案：B

解析：卷积操作通过滑动窗口（卷积核）与输入特征图的局部区域逐元素相乘求和，本质是提取局部空间特征（如边缘、纹理）。A错误，全局信息融合通常由全连接层或Transformer的注意力机制完成；C错误，降低维度是池化层的主要功能；D错误，输出分类概率由全连接层+Softmax实现。

以下目标检测算法中，属于单阶段检测的是：

A.FasterR-CNN

B.SSD

C.R-CNN

D.MaskR-CNN

答案：B

解析：单阶段检测算法（如YOLO、SSD）直接在特征图上回归边界框和类别，无需区域建议步骤。A、D属于双阶段（先通过RPN生成建议框，再分类回归）；C是早期两阶段算法（先选择性搜索生成建议框，再分类）。

交并比（IoU）的计算对象是：

A.预测框与真实框的重叠区域面积

B.预测框面积与真实框面积的比值

C.预测框与真实框的交集面积除以并集面积

D.预测框与真实框的并集面积除以交集面积

答案：C

解析：IoU=交集面积/并集面积，是衡量目标检测中预测框与真实框重叠程度的核心指标。A仅描述交集部分；B是面积比而非重叠比；D是IoU的倒数，无实际意义。

ResNet网络的核心创新是：

A.引入批量归一化（BatchNorm）

B.设计跳跃连接（SkipConnection）

C.使用更深的网络层数

D.采用分组卷积（GroupConvolution）

答案：B

解析：ResNet通过跳跃连接（F(x)+x）解决了深层网络的梯度消失问题，允许训练超深层网络（如152层）。A是GoogLeNet或BN-Inception的改进；C是结果而非创新点；D是ResNeXt的改进。

语义分割任务的输出是：

A.图像中所有目标的边界框坐标

B.每个像素点所属的类别标签

C.图像整体的分类概率

D.目标的关键点坐标（如人脸5点）

答案：B

解析：语义分割要求为每个像素分配类别（如“道路”“车辆”），属于像素级分类。A是目标检测任务；C是图像分类任务；D是关键点检测任务。

特征金字塔网络（FPN）主要用于解决目标检测中的：

A.小目标检测效果差的问题

B.模型参数量过大的问题

C.背景与目标的类别不平衡问题

D.检测速度慢的问题

答案：A

解析：FPN通过自顶向下路径融合不同尺度的特征图（如高层的强语义特征与低层的高分辨率特征），提升对不同大小目标（尤其是小目标）的检测能力。B由轻量级网络（如MobileNet）解决；C由FocalLoss等方法缓解；D由单阶段算法或模型压缩解决。

以下属于自监督学习（Self-SupervisedLearning）的是：

A.使用ImageNet标签训练分类模型

B.基于图像旋转角度预测训练特征提取器

C.通过人工标注的边界框训练目标检测器

D.利用对抗生成网络（GAN）生成新图像

答案：B

解析：自监督学习通过构造无标签数据的“代理任务”（如旋转预测、颜色恢复）学习有用特征，无需人工标注标签。A、C依赖人工标签（监督学习）；D是生成模型，不直接学习特征表示。

非极大值抑制（NMS）的主要作用是：

A.抑制模型训练中的过拟合

B.减少目标检测中的重复预测框

C.提升特征图的语义表达能力

D.加速卷积操作的计算速度

答案：B

解析：NMS通过抑制同一目标的冗余预测框（保留置信度最高的框，移除与它IoU超过阈值的其他框），解决目标检测中同一目标被多次检测的问题。A由正则化（如Dropout）实现；C由网络结构设计（如注意力机制）提升；D由卷积优化（如Winograd算法）实现。

光流估计（OpticalFlow）的目标是：

A.计算图像中物体的三维形状

B.估计连续帧间像素的运动向量

C.生成图像的深度信息图

D.识别视频中的动作类别

答案：B

解析：光流估计通过分析连续视频帧的像素变化，输出每个像素在两帧间的位移向量（u,v），用于运动分析。A是三维重建任务；C是深度估计任务；D是动作识别任务。

VisionTransformer（ViT）的输入处理方式是：

A.直接输入原始图像像素

B.将图像分割为固定大小的Patch并展平

C.对图像进行下采样至1x1特征图

D.仅保留图像的颜色通道信息

答案：B

解析：ViT将图像分割为多个非重叠的Patch（如16x16），每个Patch展平为向量后添加位置编码，作为Transformer的输入序列。A未考

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年计算机视觉工程师考试题库（附答案和详细解析）（0106）.docxVIP