基于深度学习的视频内容描述研究.pdfVIP

下载本文档

3
0
约1.57千字
约 3页
2020-09-23 发布于江西
举报

基于深度学习的视频内容描述研究.pdf

基于深度学习的视频内容描述研究人工智能大体可分为两个研究方向:感知智能和认知智能。感知智能研究进展讯速,比如图片分类、自然语言翻译,但认知智能发展速度有限,比如看图说话、视觉描述等。将自然语言和计算机视觉结合起来研究,有利于搭起人类和机器之间沟通的桥梁,促进认知智能的研究。由于近些年深度学习技术的发展,建立起视频和自然语言的连接将被视为视频理解的终极目标。视频内容描述不同于视频分类、物体检测等标签式的粗粒度视觉理解任务,而是需要用通顺准确的一句话来描述视频内容。这不仅需要识别出视频中的物体,还需要理解视频中物体之间的相互关系,同时由于视频内容描述风格多样,比如对场景的抽象描述,对各物体之间关系的描述,对视频中物体行为和运动的描述等,这将给视频内容描述研究带来很大的挑战性。传统的视频内容描述算法主要采用基于语言模板的方法或基于检索的方法。基于语言模板的方法,由于受到固定语言模板的限制,只能生成形式单一缺乏灵活性的句子。而基于检索的方法过于依赖检索视频库的大小, 当数据库中缺少与待描述视频相似的视频时,生成的描述语句将和视频内容存在较大的偏差。同时这两种方法都需要在前期对视频进行复杂的预处理过程,而对后端的语言序列部分优化不足,从而导致生成的语句质量较差。随着深度学习技

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于深度学习的视频内容描述研究.pdfVIP