多模态数据融合与检索技术教学课件(共4章)第二章多模态学习.pptVIP

多模态数据融合与检索技术教学课件(共4章)第二章多模态学习.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 2.2.1 多模态学习分类概述 多模态融合(Multimodal Fusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。 视频与音频识别:分别提取音频以及视频的特征信息,再将有用的信息综合起来作为某一个实例的融合特征,从而进行识别工作。 2.2.1 多模态学习分类概述 多模态融合(Multimodal Fusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。 手机身份认证:利用手机的多传感器信息,提取融合之后用于认证手机使用者是否是注册用户。 2.2.1 多模态学习分类概述 多模态融合(Multimodal Fusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。 多模态情感分析:利用多个模态的数据,得到更加准确的情感类型判断结果。 2.2.1 多模态学习分类概述 多模态检索(Multimodal Retrieval):对来自同一个实例的不同模态信息的子分支或元素寻找对应关系,多模态检索可分为时间维度、空间维度。 时间维度 空间维度 2.2 多模态学习 2.2.3 多模态学习实际应用 2.2.2 多模态学习研究进展 2.2.1 多模态学习分类概述 2.2.4 多模态学习研究展望 2.2.2 多模态学习研究进展 多模态学习可应用于语音识别和生成、图像识别、事件监测、情感分析和跨媒体检索等方面,赋予机器理解和融合图像、语音、文字、视频等模态所包含信息的能力。主要包含三种应用领域: 视听语音识别 多媒体内容索引和检索 多模态交互 多模态学习 表示学习 协同学习 转换 融合 检索 视听语音识别 √ √ ? √ √ 多模态检索 √ √ √ ? √ 情感与影响 ? ? ? ? ? 2.2 多模态学习 2.2.3 多模态学习实际应用 2.2.2 多模态学习研究进展 2.2.1 多模态学习分类概述 2.2.4 多模态学习研究展望 2.2.3 多模态学习实际应用 AlphaGO:世界围棋第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败,成为人类顶尖高手与这台机器之间的最后一次较量。 2.2.3 多模态学习实际应用 DeepL Translator:在AI的辅助下,通过神经网络的学习,提供更好的翻译结果,使不同文化更加贴近。它支持文档翻译和多种手写语言的翻译,实现了文本、视觉等模态信息的交流互通。 2.2.3 多模态学习实际应用 自动驾驶汽车:通过多模态融合的方式更加准确引导车辆驾驶,包括超声波雷达、毫米波雷达、激光雷达以及摄像头多种信息感知设备。 2.2.3 多模态学习实际应用 Facebook:运用机器学习让网络社交变得更加有趣、方便,提升了用户的体验度。包括风格迁移、文字翻译、图像-文字描述、人脸识别、自动监测、搜索推荐。 2.2.3 多模态学习实际应用 淘宝:网络模型基于全球规模最大的商品认知图谱以及全球首个每日万亿量级的云端协同图神经网络,支持4亿商品对应的图像和视频检索,可利用自然语言学习、实时机器翻译、语义识别等技术辅助店小蜜、实时翻译、商品评价分析等关键链路。 2.2.3 多模态学习实际应用 语音助手(Siri、Cortana):听懂用户需求并做出对应的操作,省去手动操作的困扰。 智能音箱(小度、小爱同学):与智能家居相联系,实现语音控制操作的功能,在很大程度上改善了人们生活习惯。 图像识别与标准(腾讯):减少了人工消耗,提高了识别进度与正确率。 商品推荐系统(阿里巴巴):便捷了用户对于同一类商品的需求搜索,实时更新的商品推荐也为用户提供了更为新颖的购物体验。 自动驾驶汽车(特斯拉):通过输入视觉信息、雷达信息、位置信息、语音信息、自然语言信息等,自动识别行人,障碍物,综合信息后决定汽车的行驶方向与速度。 2.2 多模态学习 2.2.3 多模态学习实际应用 2.2.2 多模态学习研究进展 2.2.1 多模态学习分类概述 2.2.4 多模态学习研究展望 2.2.4 多模态学习研究展望 多模态表示学习:主流方法局限于静态条件下,如何进行动态学习是之后研究的主要方向。 多模态协同学习:如何挖掘得到尽可能多的模态间的不同信息来促进模型的学习是一个很有价值的研究方向。 多模态转化任务:如何找到合适的主观评价指标来适用于不同类型的转化任务是未来的主要研究方向。 多模态融合任务:由于每一种模

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

从事职业教育近20年,高级职称。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档