- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多模态信息处理
多模态信息处理研究进展、现状及趋势
1. 任务定义、目标和研究意义
多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的
研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。
在研究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽
泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)
更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一
种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了
模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联
性和直观性的要求。在同一事物上多类单模态信息共生或共现的现象是十分普遍
的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的
解说文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多
模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多
模态信息的获取、组织、分析、检索、理解、创建等。
多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系
统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法
和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基
于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称
相似性度量,在某些语义推导任务中,效果好于基于纯文本的分布式语义表示;
情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦
度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模
态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿
沟问题,利用与视音频数据共生或共现的文本信息,进行多模态的语义分析和相
似性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体
信息处理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外
延语义 (指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得
不到完整或最终表达,而多模态信息处理方法为该问题的解决提供了新的思路和
方法。
2. 研究内容和关键科学问题
多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展
起来的,现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取
层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、
音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信
息的建模、获取、融合、语义度量、分析、检索等方面。
2.1 多模态信息建模
如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于
用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信
息建模,就是要构建一个单模态的分类体系,在该分类体系中,各单模态类别之
间满足完整性、正交性、关联性和直观性的要求。Niels Ole Bernsen 2008 年基
于前人的工作,在“多模态理论(Multimodality Theory)”一文中给出了一个满
足这些要求的单模态的分类体系,如表1 所示。
表1 一个输入/输出模态的分类
顶层 通用层 原子层 亚原子层
1 静态拟真图形元素
2 静-动态拟真声音元素
3 静-动态拟真触觉元素
4 动态拟真图形 4a.静动手势话语
4b.静动手势关键字
4c.静动手势符号
5 静态非拟真图形 5a.书面文本 5a1.打印文本
5a2.手写文本
5b.书面关键字
您可能关注的文档
- 地基换填处理方案(灰土换填方案).doc
- 地籍调查规程手打.docx
- 地下室耐磨地坪施工安全技术交底.doc
- 地胆草的功效与作用.doc
- 地铁车辆空调装置二.ppt
- 地质灾害防治工程预算标准.pptx
- 坚定信念放飞理想班会课.doc
- 块立体构成模板.ppt
- 坚持法治与德治相结合.doc
- 垓下之围读后感.doc
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)