- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
摘 要
目标检测问题是计算机视觉领域非常热门的研究方向,目前在学术界中针对
单幅图像的目标检测已有许多代表性算法,但针对视频目标检测问题的研究进展
比较缓慢。图像数据与视频数据比较,撇去形式不谈,后者的信息量更大更冗杂,
如今互联网技术与移动通信技术飞速发展,不论电脑端还是移动端,视频数据在我
们的生活中扮演越来越重要的角色,视频目标检测也势必成为当下的研究焦点之
一。
目标检测这门学科具体而且核心,它的任务是找出图像中所有感兴趣的目标,
通常输出结果会以边界框的形式确定目标在图像中的具体位置,大小以及所属物
体类别。视频目标检测任务就是找出视频中所有感兴趣的目标,并完成定位、识别
和分类任务。然而在一段视频帧序列中,相邻帧图像往往具有极大的相似性,而且
前后帧还存在上下文关系,这是单幅图像所不具备的特点。因此,看上去视频目标
检测与图像目标检测大同小异,但实际算法设计上却有着很大区别。
本课题在此前微软亚洲研究院关于光流法视频目标检测的固定间隔关键帧选
取算法和密集特征增强算法的基础上,提出了一种基于分片的关键帧插入策略的
算法,这种新算法在整体结构上依然是特征级别的检测原理,即结合特征提取网络
与基于区域的全卷积网络。算法的核心思想是分段化地选取关键帧,以固定间隔的
关键帧序列作为初始状态,判定当前关键帧与下一关键帧的相似程度是否达到相
似度阈值,插入新关键帧,否则跳过至下一关键帧继续判定。直到确定所有的关键
帧,最终形成呈片段分布趋势的关键帧序列。通过实验,本文提出的算法可以针对
不同场景和需求进行参数调试,达到当前最佳效果。
关键词:视频目标检测,光流网络,基于区域的全卷积网络,关键帧选取
I
ABSTRCT
ABSTRACT
Object detection is a very popular research direction of Computer Vision. So far,
there are several representative algorithms for single image detection in academia. But
the research progress in video object detection is in a relatively backwater. Comparing
image data with video data, the latter has a larger amount of information and is more
complicated. Nowadays, Internet technology and mobile communication technology are
developing rapidly. Whether using computer or mobile, we can see video data plays a
more and more important role in our lives.
The task of object detection is to find all the interesting objects of the input image.
The task of video object detection is to find all the interesting objects in the video, and
output their exact positions, sizes and classifications. However, in a sequence of video
frames, adjacent frames have great similarity, and there is a contextual relationship
between the front and back frames. This is a feature t
原创力文档


文档评论(0)