DEIM是一个较新的训练框架,增强DETR中的匹配机制,从而实现更快的收敛速度和更高的准确度。
DEIM论文:
一、介绍
1.YOLO的不足:会为每个对象生成多个重叠的边界框,需要手动消除非极大值抑制(NMS)冗余,引入延迟和不稳定性。
2.限制DEIM收敛的原因:其一是Sparse supervision 稀疏的监督机制,即O2O匹配机制,为每个目标只分配一个正样本,极大限制了正样本的数量,相比之下阳性样本数倍。正样本的稀缺限制了密集监督,阻碍了有效的模型学习,特别的对于小对象,密集监督性能至关重要。其二是Low-quality matches 低质量的匹配。传统方法依赖密集锚点通常>8000,DETR使用少量(100或300)随机初始化查询,这些查询缺乏与目标的空间对齐,导致训练中的许多低质量匹配,其中匹配框与目标的IoU较低,但置信度得分很高。
3.引入Dense O2O匹配,解决上述不足
二、相关工作
1.增加正样本
引入"groups"的概念,近似O2M,使用K组查询(K>1),并在每组内独立进行O2O匹配。
Co-DETR是O2M匹配方法有助于模型学习更多不同的特征信息,提出一种协作混合分配方案,通过O2M辅助来增强解码,如Faster R-CNN和FCOS。现存的方法是增加正样本的数量来增强对目标的监督。相反Dense O2O探索另一个方向---增强每个训练图像的目标数量,进而增强监督。现有方法对计算消耗会大一些,DETR没有这方面的消耗。
2.优化低质量目标匹配
稀疏和随机初始化的查询缺乏与目标的空间对齐,导致高比例的低质量匹配阻碍了模型收敛。Varifocal Loss(VFL)是减少分类置信度和预选框质量的不确定性,增强实时性能;主要为具有减少低质量匹配的传统检测模型设计的,专注于high-IoU优化,而low-IoU匹配由于最小和平坦的损耗值而未得到优化。引入matchability-aware loss(匹配感知损失),更好地优化不同质量水平的匹配,显著提高Dense O2O匹配的有效性。
3.降低计算损耗
为了提高效率和促进与多尺度特征的相互作用,几个先进的注意力机制已经发展起来,如deformable attention, multi-scale deformabke attention, dyamic attention, and cascade window attention。另外,它们都创建了更有效的编码模块。DETR 引入了编码模块,在高-低特征之间交错更新,而 RT-DETR 在其编码器中结合了CNN和自注意力机制。该设计减少了资源消耗,尤其是 RT-DETR, 它是 DETR 框架内的第一个实时目标检测模型。在此混合编码器的基础上,D-FINE 使用附加模块进一步优化RT-DETR,并通过迭代更新概率分布而不是预测固定坐标来改进回归过程。这种方法使 D-FINE 在延迟和性能之间实现了更有利的平衡,略微超过了最近的YOLO模型。利用实时DETRs的这些进步,降低训练成本的同时性能也很好,在实时目标检测方面大大优于YOLO模型。