基于深度学习的视频内容描述研究.pdfVIP

  • 3
  • 0
  • 约1.57千字
  • 约 3页
  • 2020-09-23 发布于江西
  • 举报
基于深度学习的视频内容描述研究 人工智能大体可分为两个研究方向:感知智能和认知智能。感知 智能研究进展讯速,比如图片分类、自然语言翻译,但认知智能发展速 度有限,比如看图说话、视觉描述等。将自然语言和计算机视觉结合 起来研究,有利于搭起人类和机器之间沟通的桥梁,促进认知智能的 研究。由于近些年深度学习技术的发展,建立起视频和自然语言的连 接将被视为视频理解的终极目标。视频内容描述不同于视频分类、物 体检测等标签式的粗粒度视觉理解任务,而是需要用通顺准确的一句 话来描述视频内容。这不仅需要识别出视频中的物体,还需要理解视 频中物体之间的相互关系,同时由于视频内容描述风格多样,比如对 场景的抽象描述,对各物体之间关系的描述,对视频中物体行为和运 动的描述等,这将给视频内容描述研究带来很大的挑战性。传统的视 频内容描述算法主要采用基于语言模板的方法或基于检索的方法。基 于语言模板的方法,由于受到固定语言模板的限制,只能生成形式单 一缺乏灵活性的句子。而基于检索的方法过于依赖检索视频库的大小, 当数据库中缺少与待描述视频相似的视频时,生成的描述语句将和视 频内容存在较大的偏差。同时这两种方法都需要在前期对视频进行复 杂的预处理过程,而对后端的语言序列部分优化不足,从而导致生成 的语句质量较差。随着深度学习技

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档