智能Agent高级能力构建22 .docxVIP

  • 2
  • 0
  • 约2.2万字
  • 约 29页
  • 2026-06-26 发布于浙江
  • 举报

以下为AI?成的图?笔记的内容?、智能Agent?级能?构建07:031.多模态推理的核?挑战?异构性表现:?本、图像、?频等不同模态数据在存储格式(如TXT/JPG/MP3)和特征表示上存在显著差异语义对?需求:以孩?在?天打红伞蹦跳过?坑为例,需同时理解语?对象(孩?/红伞)、环境(?天/?坑)和动作(蹦跳)三个维度的跨模态语义匹配解决?案架构:需要建?共享语义空间,使不同模态的相似语义在向量空间中靠近??2.视觉-语?模型与CLIP

以下为AI?成的图?笔记的内容

?、智能Agent?级能?构建07:03

1.多模态推理的核?挑战

?

异构性表现:?本、图像、?频等不同模态数据在存储格式(如TXT/JPG/MP3)和特征表示上存在显著差异

语义对?需求:以孩?在?天打红伞蹦跳过?坑为例,需同时理解语?对象(孩?/

红伞)、环境(?天/?坑)和动作(蹦跳)三个维度的跨模态语义匹配

解决?案架构:需要建?共享语义空间,使不同模态的相似语义在向量空间中靠近

?

?

2.视觉-语?模型与CLIP模型原理16:12

?

?

对?学习机制:通过?规模图?对预训练,使语义相关的?本与图像在联合嵌?空间中靠近

训练过程:

?

o

o

正样本:将孩?红伞?字与对应图?向量距离拉近负样本:将?关图?对的向量距离推远

?

应?优势:

?持双向检索:既可??字搜图,也可?图搜?字

现成模型

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档