Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

Link
Abstract

In this paper we present Mask DINO, a unified object detection and segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising Anchor Boxes) by adding a mask prediction branch which supports all image segmentation tasks (instance, panoptic, and semantic). It makes use of the query embeddings from DINO to dot-product a high-resolution pixel embedding map to predict a set of binary masks. Some key components in DINO are extended for segmentation through a shared architecture and training process. Mask DINO is simple, efficient, and scalable, and it can benefit from joint large-scale detection and segmentation datasets. Our experiments show that Mask DINO significantly outperforms all existing specialized segmentation methods, both on a ResNet-50 backbone and a pre-trained model with SwinL backbone. Notably, Mask DINO establishes the best results to date on instance segmentation (54.5 AP on COCO), panoptic segmentation (59.4 PQ on COCO), and semantic segmentation (60.8 mIoU on ADE20K) among models under one billion parameters. Code is available at \url{https://github.com/IDEACVR/MaskDINO}.

Synth

Problem:: Segmentation과 Detection을 통합한 모델이 개별 특화 모델보다 성능이 낮음

Solution:: DINO의 Detection 특화 부분을 Segmentation에 적용되도록 개선

Novelty:: 통합 모델 제안/Task 학습 속도 차이를 이용한 Anchor Query 초기화

Note:: Unified 모델 제안을 주요 Novelty로 제안하였으나, Unified의 장점이 부각되지 않음

Summary

Motivation

Unified .vs Specific + Other Task

file-20250414140459094.png

DETR 계열 모델에서 통합된 모델이 특화 모델을 대체하지 못하는 이유

Mask2Former가 검출을 잘 못하는 이유

DINO가 분할을 잘 못하는 이유

Method

file-20250414140525748.png

옅은 파란 상자는 기존 DINO의 방식, 변형된 것은 빨간색으로 표현

Segmentation Branch

Unified & Enhanced QS (Query Selection)

  1. 인코더에서 높은 분류 점수를 가진 토큰을 선별
  2. 디코더의 초기 쿼리 (Content Query)로 전달
  3. 이를 이용해 초기 마스크 및 박스를 예측
  4. Anchor Query를 마스크에서 도출해 품질 향상
    • Segmentation이 초기에 더 빠르게 수렴하기 때문에, 초기 마스크 예측이 박스 예측보다 더 정확함 → 초기 마스크에서 예측된 영역을 활용해 초기 박스를 설정

Hybrid Matching

MatchingCost=λclsLcls+λboxLbox+λmaskLmaskλclsLcls+λboxLbox+λmaskLmask

Unified DN (Unified Denoising Training)