- 1
- 0
- 约2.72千字
- 约 5页
- 2026-03-07 发布于山东
- 举报
多模态内容理解工程师考试试卷及答案
一、填空题(共10题,每题1分)
1.多模态数据常见的三种基础模态是文本、图像和______。
2.Transformer架构中跨模态交互的核心模块是______注意力。
3.CLIP模型的中文译名为______。
4.衡量图文匹配度的常用指标是准确率和______(召回率@k)。
5.多模态模型中不同模态特征映射到同一空间的过程称为______对齐。
6.GPT-4V支持的模态包括文本、图像和______。
7.多模态目标检测的经典数据集是______。
8.早期融合是在______阶段进行特征融合。
9.BLIP模型的核心优化任务是______生成。
1
原创力文档

文档评论(0)