以图像视频为中心的跨媒体分析与推理.docxVIP

下载本文档

77
0
约1.19万字
约 11页
2021-08-07 发布于广东
举报
版权申诉

以图像视频为中心的跨媒体分析与推理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以图像视频为中心的跨媒体分析与推理人类通过多模态协同的方式对世界进行感知与认知。视觉是生物获取环境信息的一种主要方式，Hubel 和Wiesel通过生物学实验发现，高级生物通过不同复杂度的组织细胞对视觉信息进行逐步提取与整合，实现视觉场景解构与结构化感知随着信息技术的不断发展，人类社会已全面进入网络互联时代。网络用户群体数量的不断增长，以及手机、摄像头等具有强大环境感知能力的终端设备的不断普及，使得对物理世界与网络世界的记录越来越翔实，并呈现跨模态、跨数据源的复杂关联特性，即不同模态、不同来源的图像、视频、文本、音频通过多源互补方式刻画同一对象与事件信息。如何对体量巨大的跨媒体数据进行有效管理与利用，是应对重大变化的信息新环境的迫切需要，也是发展新一代人工智能亟待突破的瓶颈问题。在海量跨媒体内容当中，超过90%的内容通过图像、视频等视觉方式呈现，以图像视频为中心的跨媒体分析推理技术近年来引发了学术界和工业界的广泛关注和深入研究针对以图像视频为代表的海量网络跨媒体内容，借鉴高级生物的感知与认知机理，团队对跨媒体内容统一表征与符号化表征、跨媒体深度关联理解、类人跨媒体智能推理等关键技术开展研究；基于上述关键技术，研究团队着力于解决发展新一代人工智能的知识匮乏共性难题，开展大规模跨媒体知识图谱的构建及人机协同标注技术研究，为跨媒体感知进阶到认知建立理论与支撑，进一步为多模态分类、跨媒体检索、事件发现与预测等跨媒体内容管理与服务热点应用领域提供了可行思路。1 研究总体框架跨媒体由不同来源、不同模态的信息以交织融合的方式产生与演化。跨媒体不同模态信息的异构性为跨媒体统一计算带来了“异构鸿沟”难题。另一方面，相比于传统单一媒体，跨媒体内容中蕴含更为丰富的语义信息，然而跨媒体数据到语义知识之间存在较大的“语义鸿沟”，导致对跨媒体理解的粗浅和片面。针对海量跨媒体的形式异构、内容复杂、动态演化等特点，研究组针对以图像视频为中心的跨媒体分析推理理论与方法开展了深入研究，建立了跨媒体分析推理研究的通用框架与范式，如图1所示。具体而言，研究组通过符号化与统一表征、深度关联理解、类人智能推理等方式构建了从数据到知识的归纳通路，通过粗粒度图谱构建、细粒度图谱构建和人机协同知识标注平台实现从知识到数据的演绎通路，最后在跨媒体归纳推理和演绎推理技术框架上，构建跨媒体分析推理引擎技术原型系统，为内容管理与服务提供技术支撑。2 跨媒体统一表征与符号化表征网络跨媒体内容中包含大量的视觉及图文联合表达信息，对这些信息的统一表征是实现跨媒体统一计算的基础性问题，而将跨媒体信息进行符号化转换则是支撑跨媒体推理和认知的关键。然而，尽管近年来图像分类与检测技术取得了一定进展，但对跨媒体当中的视觉信息的符号化转换精度仍处在较低水平。进一步深入分析，针对视觉模态与文本模态的符号化表征方式之间存在的显著差异，也为跨媒体统一计算与符号化表征造成了本质困难。为此，研究组近年来开展了如下的研究工作。针对视觉内容的局部、浅层表征在描述性、显著性和判别性不足等难题，借鉴生物视觉感知理论，对视觉表征进行视觉空间扩展和纵向特征层级融合。引入视觉内容上下文，模拟生物神经元信息传递规律，建模视觉基元间相关性和信息传递关系，建立了视觉内容的通用符号表征体系。模拟生物视觉层级信息传递过程，提出视觉层级表征的递进式融合方法，实现了动态复杂时空环境下的多尺度视觉目标高效聚焦与跟踪。针对图像和文本内容的异构性问题，提出跨媒体符号化统一表示及调和统一表示方法，实现了图文模态当中从局部到整体的内容语义对齐表示。2.1 多尺度显著性视觉表征针对视觉内容匹配与检索的需求，提出了描述性视觉单词和视觉短语的通用提取算法框架。对视觉单词的空间近邻关系统计矩阵上的随机游走稳态结果进行挖掘，得到视觉场景中语义显著的单词集合与频繁共现的视觉词对。如图2所示，所提方法通过视觉单词及其多尺度组合刻画视觉物体和场景，具有可比拟文本词和短语的强描述能力。所提方法可用于检索排序等任务，实现了视觉单词表征能力的阶跃，与传统视觉单词相比具有显著精度优势，检索准确率相对提高19.5%，重排序精度相对提高12.4%，处理速度快11倍以上2.2 视觉目标与多模态符号表征针对复杂的图文内容，提出一种图像和文本的多粒度符号信息建模表示方法，将图像利用物体检测技术提取到包含显著物体的图像区域并编码成视觉符号表征，实现图像-文本的联合自注意统一表征，并分别将图像和文本映射到隐含联合表示空间。使用Wordpiece Token得到文本词汇、短语、句子符号表示，并使用自注意机制分别学习图像和文本内小块的关联，进一步聚合小块的信息得到图像和文本的隐含空间表示。其中建模自注意机制的层包括多头自注意力子层和对