Note Seq-NMS for Video Object Detection

发表于 2018-11-10 更新于 2023-03-30 分类于 Note 笔记， Video Object Detection

Abstract

用于视频目标检测的NMS方法

视频目标检测困难的原因：

本文，我们提出单帧检测的一个简单拓展来帮助解决上述问题。

单帧检测完全忽略了时间维度，本文，我们在后处理阶段融合时序信息，以此优化每帧的检测结果。对于给定的时间序列上的ROI和类别得分，我们使用简单的重叠标准来连接邻近帧的BBox，使得序列的得分最大化。之后抑制附近的BBox，然后对BBox重打分。

1515727263191

贡献：

NMS经常会选错BBox，选择的BBox通常较大，且与GT与较小的IOU。大BBox经常有较高的物体得分，可能是在ROI pooling时大BBox能提取更多的信息。为了解决这个问题，我们尝试使用时序信息对bbox重排序。我们假设邻近帧有相同的物体具有相似的位置和尺寸。

我们提出一些经验性的方法：1）序列选择，2）序列重打分，3）抑制。重复此步骤直到没有剩余序列为止。图1显示了此过程。

1515729313541

当IoU超过一定阈值后，第一帧的一个BBox与第二帧的BBox连接，我们首先选择潜在的可能的所有连接。然后尝试找到得分最大的序列。

1515729999290

可以通过简单的动态规划算法求解。

尝试使用average或max函数对序列打分

选择后的BBox重候选BBox中移除，并且对IoU超过阈值的BBox抑制。

ImageNet VID数据集，30个类别

1515730390416

首先，在VID训练集上迭代400K次，Fast R-CNN训练迭代200K次。最后固定卷积层，训练400K次，发现RPN在VID验证集上实现90%的召回率。

对于分类器，我们考虑ZF和VGG16两个网络，ZF在VID的训练集上训练，VGG16在2015DET的训练和验证集上预训练。然后VGG在VID上训练，去掉多余的类别单元，然后固定其他层。

1515731237073

NMS表示单帧检测，best是表示每个类别选择其最优的策略，然后求其平均。表2显示检测结果。

图3显示了每个类别的mAP的提升，图4显示了每个类别的提升。可以发现，摩托车、海龟、小熊猫、斑马、羊的提升较大。

1515731407526

1515731433180

表3显示了VID比赛的结果，我们提交的最好结果是48.7%。

1515731904233

T-CNN的方法包含以下技术：1）很强的单帧检测器；2）bbox抑制和传播；3）轨迹/tubelet 重打分；4）模型组合。其单帧检测器的mAP可达到67.7%如果仅考虑后面两个技术的提升，我们的方法提升更大（7.3% vs. 6.7%）。

Seq-NMS可以把一些低得分的物体重新找回，但是也可能带入一些虚警。

1515732534734

1515732575950