- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.1.2 异源多模态数据 异源多模态数据:来自不同传感器的同一类媒介产生的数据。 红外图像 合成孔径雷达(SAR)图像 超声诊断图像(B超) 计算机断层扫描图像(CT) 2.3 多模态数据融合与检索技术 2.2 多模态学习 2.1 多模态数据概述 主要内容 2.2 多模态学习 2.2.3 多模态学习实际应用 2.2.2 多模态学习研究进展 2.2.1 多模态学习分类概述 2.2.4 多模态学习研究展望 2.2.1 多模态学习分类概述 多模态学习:多模态数据的挖掘分析过程可被理解为“多模态学习”,目的是建立一个能处理和关联多种模态信息的模型,有效的“多模态学习”可获得更丰富的语义信息,进而提升待表示事物的整体性能。 基于模型的多模态学习:表示学习与协同学习 基于任务的多模态学习:转化任务,融合任务,检索任务。 传统多模态学习 前沿多模态学习 1970-2010 2.2.1 多模态学习分类概述 多模态表示学习(Multimodal Representation):通过利用多模态之间的互补性和关联性,剔除模态间的冗余性,从而为每个模态提取最具有判别性的特征表示,以帮助它们学习到更好的特征表示,并最终表示和汇总成多模式数据。包括两大研究方向:联合表示学习与协同表示学习。 2.2.1 多模态学习分类概述 联合表示学习(Joint Representations):将多个单模态投影到一个共享的子空间。以便能够融合多个模态的特征,形成一个多模态向量空间。 2.2.1 多模态学习分类概述 协同表示学习(Coordinated Representations):多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束,例如线性相关。 2.2.1 多模态学习分类概述 多模态协同学习(Multimodal Co-learning):使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。 迁移学习(Transfer Learning):从相关领域中迁移标注数据或者知识结构来完成或改进目标领域的学习效果。 2.2.1 多模态学习分类概述 多模态协同学习(Multimodal Co-learning):使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。 邻域适应性(Domain Adaptation):解决将训练域上学习到的模型应用到目标域中,利用信息丰富的源域样本来提升目标域模型的性能。 2.2.1 多模态学习分类概述 多模态转化(Multimodal Translation):也称为映射,是将一个模态的数据信息转换为另一个模态的数据信息。 2.2.1 多模态学习分类概述 多模态融合(Multimodal Fusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。 视频与音频识别:分别提取音频以及视频的特征信息,再将有用的信息综合起来作为某一个实例的融合特征,从而进行识别工作。 2.2.1 多模态学习分类概述 多模态融合(Multimodal Fusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。 手机身份认证:利用手机的多传感器信息,提取融合之后用于认证手机使用者是否是注册用户。 2.2.1 多模态学习分类概述 多模态融合(Multimodal Fusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。 多模态情感分析:利用多个模态的数据,得到更加准确的情感类型判断结果。 2.2.1 多模态学习分类概述 多模态检索(Multimodal Retrieval):对来自同一个实例的不同模态信息的子分支或元素寻找对应关系,多模态检索可分为时间维度、空间维度。 时间维度 空间维度 2.2 多模态学习 2.2.3 多模态学习实际应用 2.2.2 多模态学习研究进展 2.2.1 多模态学习分类概述 2.2.4 多模态学习研究展望 2.2.2 多模态学习研究进展 多模态学习可应用于语音识别和生成、图像识别、事件监测、情感分析和跨媒体检索等方面,赋予机器理解和融合图像、语音、文字、视频等模态所包含信息的能力。主要包含三种应用领域: 视听语音识别 多媒体内容索引和检索 多模态交互 多模态学习 表示学习 协同学习 转换 融合 检索 视听语音识别 √ √ ? √ √ 多模态检索 √ √ √ ? √ 情感与影响 ? ? ? ? ? 2.2 多模态学习 2.2.3 多模态学习
文档评论(0)