TrackingLearningDetection原理分析.doc

下载文档 降价啦

2
0
约5.22千字
约 13页
2017-08-14 发布于重庆
举报
版权申诉
保障服务

TrackingLearningDetection原理分析.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Tracking-Learning-Detection原理分析 ?Tracking-Learning-Detection（TLD）是Zdenek Kalal提出的一种对视频中单个物体长时间跟踪的算法。我主要会根据他在2010年发表的论文《Tracking-Learning-Detection》来分析TLD算法的原理。该项目的首页中有几段视频展示了TLD实时跟踪的效果和性能，其中的两个视频可以在这里下载：similar objects，human face。作者公布了源代码，不过需要Matlab和Visual Studio交叉编译，在我的机器上没能运行。GitHub上有很多C++版本的TLD，比如arthurv，注释比较详细，但速度很慢。 ? ? ? ??由于我使用的插件默认对所有图片加水印，所以本文中使用的大多数并不是我绘制的图片也加上了水印，还请谅解。 ? ? ? ? 正如名字所示，TLD算法主要由三个模块构成：追踪器（tracker），检测器（detector）和机器学习（learning）。 ? ? ? ? 对于视频追踪来说，常用的方法有两种，一是使用追踪器根据物体在上一帧的位置预测它在下一帧的位置，但这样会积累误差，而且一旦物体在图像中消失，追踪器就会永久失效，即使物体再出现也无法完成追踪；另一种方法是使用检测器，对每一帧单独处理检测物体的位置，但这又需要提前对检测器离线训练，只能用来追踪事先已知的物体。 ? ? ? ? TLD是对视频中未知物体的长时间跟踪的算法。“未知物体”指的是任意的物体，在开始追踪之前不知道哪个物体是目标。“长时间跟踪”又意味着需要算法实时计算，在追踪中途物体可能会消失再出现，而且随着光照、背景的变化和由于偶尔的部分遮挡，物体在像素上体现出来的“外观”可能会发生很大的变化。从这几点要求看来，单独使用追踪器或检测器都无法胜任这样的工作。所以作者提出把追踪器和检测器结合使用，同时加入机器学习来提高结果的准确度。 ? ? ? ??追踪器的作用是跟踪连续帧间的运动，当物体始终可见时跟踪器才会有效。追踪器根据物体在前一帧已知的位置估计在当前帧的位置，这样就会产生一条物体运动的轨迹，从这条轨迹可以为学习模块产生正样本（Tracking-Learning）。 ? ? ? ??检测器的作用是估计追踪器的误差，如果误差很大就改正追踪器的结果。检测器对每一帧图像都做全面的扫描，找到与目标物体相似的所有外观的位置，从检测产生的结果中产生正样本和负样本，交给学习模块（Detection-Learning）。算法从所有正样本中选出一个最可信的位置作为这一帧TLD的输出结果，然后用这个结果更新追踪器的起始位置（Detection-Tracking）。 ? ? ? ??学习模块根据追踪器和检测器产生的正负样本，迭代训练分类器，改善检测器的精度（Learning-Detection）。追踪模块 ? ? ? ? TLD使用作者自己提出的Median-Flow追踪算法。 ? ? ? ? 作者假设一个“好”的追踪算法应该具有正反向连续性（forward-backward consistency），即无论是按照时间上的正序追踪还是反序追踪，产生的轨迹应该是一样的。作者根据这个性质规定了任意一个追踪器的FB误差（forward-backward error）：从时间t的初始位置x(t)开始追踪产生时间t+p的位置x(t+p)，再从位置x(t+p)反向追踪产生时间t的预测位置x`(t)，初始位置和预测位置之间的欧氏距离就作为追踪器在t时间的FB误差。 ? ? ? ? Median-Flow追踪算法采用的是Lucas-Kanade追踪器，也就是常说的光流法追踪器。这个追踪器的原理就不在这里解释了。只需要知道给定若干追踪点，追踪器会根据像素的运动情况确定这些追踪点在下一帧的位置。 ? ? ? ??追踪点的选择 ? ? ? ??作者给出了一种依据FB误差绘制误差图（Error Map）筛选最佳追踪点的方法，但并不适用于实时追踪任务，就不详细介绍了。这里只介绍在TLD中确定追踪点的方法。 ? ? ? ? 首先在上一帧t的物体包围框里均匀地产生一些点，然后用Lucas-Kanade追踪器正向追踪这些点到t+1帧，再反向追踪到t帧，计算FB误差，筛选出FB误差最小的一半点作为最佳追踪点。最后根据这些点的坐标变化和距离的变化计算t+1帧包围框的位置和大小（平移的尺度取中值，缩放的尺度取中值。取中值的光流法，估计这也是名称Median-Flow的由来吧）。 ? ? ? ? 还可以用NCC（Normalized Cross Correlation，归一化互相关）和SSD（Sum-of-Squared Differences，差值平方和）作为筛选追踪点的衡