- 2
- 0
- 约4.04千字
- 约 8页
- 2017-04-10 发布于北京
- 举报
关于静态图像生成句子描述问题
关于静态图像生成句子描述的问题
进入Computer Vision领域以来,很久之前就有个想法,能否给计算机一幅照片,计算机能够自动的描述图像中的内容,甚至图像中的人物以及正在发生的事情。就像是咱们小时候的看图作文似的。
但是现在已经有文章开始做相关工作了,下面分别描述一下。
第一篇是CMU的小牛Abhinav Gupta同学的CVPR2009的Oral,其实做的视频里的东西。
Understanding Videos, Constructing Plots – Learning a Visually Grounded Storyline Model from Annotated Videos
Abhinav Gupta, Praveen Srinivasan, Jianbo Shi and Larry S. DavisIn CVPR 2009 (Oral) (PPT)
这篇文章是通过AND-OR的图模型来叙述视频里面正在发生的运动的各个动作,包括击球、接球、扔球等。因为视频里面含有更多的信息,所以做起来也相对容易一下。
————–
第二篇是UIUC的Ali Farhadi写的,发在ECCV2010的poster。
Every Picture Tells a Story: Generating Sentences for ImagesAli Farhadi, Mohsen He
原创力文档

文档评论(0)