Note Seq-NMS for Video Object Detection

Abstract

用于视频目标检测的NMS方法

1. Introduction

视频目标检测困难的原因:

  • 较大的尺度变化
  • 遮挡
  • 运动模糊

本文,我们提出单帧检测的一个简单拓展来帮助解决上述问题。

单帧检测完全忽略了时间维度,本文,我们在后处理阶段融合时序信息,以此优化每帧的检测结果。对于给定的时间序列上的ROI和类别得分,我们使用简单的重叠标准来连接邻近帧的BBox,使得序列的得分最大化。之后抑制附近的BBox,然后对BBox重打分。

1515727263191

贡献:

  • 提出Seq-NMS改进用于视频视频数据的物体检测流程。特别地,我们改进了后处理阶段,使用前后帧的高分物体结果增强弱检测结果。
  • Seq-NMS在ImageNet VID上的表现超过先进的单帧检测结果。
  • 方法在ILSVRC2015上排名第3

2. 我们的方法

2.1 Seq-NMS

NMS经常会选错BBox,选择的BBox通常较大,且与GT与较小的IOU。大BBox经常有较高的物体得分,可能是在ROI pooling时大BBox能提取更多的信息。为了解决这个问题,我们尝试使用时序信息对bbox重排序。我们假设邻近帧有相同的物体具有相似的位置和尺寸。

我们提出一些经验性的方法:1)序列选择,2)序列重打分,3)抑制。重复此步骤直到没有剩余序列为止。图1显示了此过程。

1515729313541

序列选择

当IoU超过一定阈值后,第一帧的一个BBox与第二帧的BBox连接,我们首先选择潜在的可能的所有连接。然后尝试找到得分最大的序列。

1515729999290

可以通过简单的动态规划算法求解。

序列重打分

尝试使用average或max函数对序列打分

抑制

选择后的BBox重候选BBox中移除,并且对IoU超过阈值的BBox抑制。

3. 数据集

ImageNet VID数据集,30个类别

1515730390416

4. 结果

4.1 RPN和分类器训练细节

首先,在VID训练集上迭代400K次,Fast R-CNN训练迭代200K次。最后固定卷积层,训练400K次,发现RPN在VID验证集上实现90%的召回率。

对于分类器,我们考虑ZF和VGG16两个网络,ZF在VID的训练集上训练,VGG16在2015DET的训练和验证集上预训练。然后VGG在VID上训练,去掉多余的类别单元,然后固定其他层。

4.2 定量结果

1515731237073

NMS表示单帧检测,best是表示每个类别选择其最优的策略,然后求其平均。表2显示检测结果。

图3显示了每个类别的mAP的提升,图4显示了每个类别的提升。可以发现,摩托车、海龟、小熊猫、斑马、羊的提升较大。

1515731407526

1515731433180

表3显示了VID比赛的结果,我们提交的最好结果是48.7%。

1515731904233

T-CNN的方法包含以下技术:1)很强的单帧检测器;2)bbox抑制和传播;3)轨迹/tubelet 重打分;4)模型组合。其单帧检测器的mAP可达到67.7%如果仅考虑后面两个技术的提升,我们的方法提升更大(7.3% vs. 6.7%)。

4.3 定性分析

Seq-NMS可以把一些低得分的物体重新找回,但是也可能带入一些虚警。

1515732534734

1515732575950