多模态内容理解工程师考试试卷及答案.docVIP

  • 1
  • 0
  • 约2.72千字
  • 约 5页
  • 2026-03-07 发布于山东
  • 举报

多模态内容理解工程师考试试卷及答案.doc

多模态内容理解工程师考试试卷及答案

一、填空题(共10题,每题1分)

1.多模态数据常见的三种基础模态是文本、图像和______。

2.Transformer架构中跨模态交互的核心模块是______注意力。

3.CLIP模型的中文译名为______。

4.衡量图文匹配度的常用指标是准确率和______(召回率@k)。

5.多模态模型中不同模态特征映射到同一空间的过程称为______对齐。

6.GPT-4V支持的模态包括文本、图像和______。

7.多模态目标检测的经典数据集是______。

8.早期融合是在______阶段进行特征融合。

9.BLIP模型的核心优化任务是______生成。

1

文档评论(0)

1亿VIP精品文档

相关文档