【最终】第九章-文本多模态学习.pptxVIP

下载本文档

2
0
约9.04千字
约 46页
2026-04-22 发布于湖南
举报

【最终】第九章-文本多模态学习.pptx

BUPT计算机视觉···第九章文本多模态学习ComputerVision

目录01.03.02.04.背景介绍小节介绍章节概述本章总结

01.背景介绍···

01背景介绍···人类所处的现实世界由视觉、文本、听觉等多种模态信息共同构成，单一模态已难以全面刻画复杂语义。随着人工智能的发展，如何联合利用多源异构数据成为关键问题。文本多模态学习正是在这一背景下产生，通过融合视觉与文本信息，提升模型对真实世界的理解与认知能力。

02.章节概述···

02章节概述···文本多模态学习是一类结合计算机视觉与自然语言处理相关领域的任务，本章将首要介绍视觉-文本多模态数据集，并引入包括早期融合和晚期融合多模态融合技术，随后介绍视觉-文本模型架构，最后引入图像标注与描述生成和多模态情感分析的多模态应用，并对目前流行的视觉-文本多模态模型进行了介绍。

02章节概述···

03.小节介绍···

03···视觉-文本多模态数据数据类型与来源模态是事情经历和发生的方式，我们生活在一个由多种模态信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态问题，研究多模态问题是推动人工智能更好的了解和认知我们周围世界的关键。模态是指一些表达或感知事物的方式，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

【最终】第九章-文本多模态学习.pptxVIP