智能Agent高级能力构建22 .pdfVIP

  • 0
  • 0
  • 约2.55万字
  • 约 29页
  • 2026-06-26 发布于浙江
  • 举报

以下为AI⽣成的图⽂笔记的内容

⼀、智能Agent⾼级能⼒构建07:03

1.多模态推理的核⼼挑战

异构性表现:⽂本、图像、⾳频等不同模态数据在存储格式(如TXT/JPG/MP3)和特

征表示上存在显著差异

语义对⻬需求:以孩⼦在⾬天打红伞蹦跳过⽔坑为例,需同时理解语⾔对象(孩⼦/

红伞)、环境(⾬天/⽔坑)和动作(蹦跳)三个维度的跨模态语义匹配

解决⽅案架构:需要建⽴共享语义空间,使不同模态的相似语义在向量空间中靠近

2.视觉-语⾔模型与CLIP模型原理16:12

对⽐学习机制:通过⼤规模图⽂对预训练,使语义相关的⽂本与图像在联合嵌⼊空间

中靠近

训练过程:

o正样本:将孩⼦红伞⽂字与对应图⽚向量距离拉近

o负样本:将⽆关图⽂对的向量距离推远

应⽤优势:

o⽀持双向检索:既可⽤⽂字搜图,也可⽤图搜⽂字

o现成模型:⽆需重新训练,直接使⽤预训练好的CLIP/Qwen-VL等模型

3.图⽚存储与向量数据库MUbus19:08

核⼼组件:

o存储层:专⻔存放图像特征向量

o服务层:通过23790/9091端⼝提供检索服务

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档