MulT: An End-to-End Multitask Learning Transformer

Link
Abstract

We propose an end-to-end Multitask Learning Transformer framework, named MulT, to simultaneously learn multiple high-level vision tasks, including depth estimation, semantic segmentation, reshading, surface normal estimation, 2D keypoint detection, and edge detection. Based on the Swin transformer model, our framework encodes the input image into a shared representation and makes predictions for each vision task using task-specific transformer-based decoder heads. At the heart of our approach is a shared attention mechanism modeling the dependencies across the tasks. We evaluate our model on several multitask benchmarks, showing that our MulT framework outperforms both the state-of-the art multitask convolutional neural network models and all the respective single task transformer models. Our experiments further highlight the benefits of sharing attention across all the tasks, and demonstrate that our MulT model is robust and generalizes well to new domains. Our project website is at https://ivrl.github.io/MulT/.

Synth

Problem:: 기존 Transformer 모델들의 Single Task 중심 연구 한계 / 다양한 Vision Task (2D, 3D, Semantic) 통합 및 Task 간 상호 의존성 모델링 필요성 / 기존 Multitask 접근법의 Task 의존성 명시적 인코딩 부족

Solution:: End-to-End Multitask Learning Transformer 프레임워크 MulT 제안 / Swin Transformer 기반 공유 Encoder를 통한 공통 Representation 학습 / Task별 Transformer Decoder Head를 통한 개별 Task 예측 수행 / Shared Attention Mechanism을 통한 Task 간 의존성 모델링

Novelty:: 다수의 고수준 Vision Task (Depth, Segmentation, Normal, Reshading, Keypoints, Edges) 동시 처리를 위한 End-to-End Multitask Transformer 아키텍처 / 참조 Task의 Q/K Projection을 활용하여 생성된 Attention Map을 모든 Task의 Value에 적용하는 Shared Attention Mechanism 도입 / Task 간 Attention 공유를 통해 각 Vision Task 성능 향상 입증

Note:: 말만 번지르르하고 공개한 코드와 논문 내용이 일치하지 않음. Encoder 모듈과 Decoder 모듈은 크게 새로운게 없는데 길게 설명하고 정작 중요한 Shared Attention의 설명은 모호한 부분이 많음. 참조 태스크를 실험적으로 선정했다고 했으나 구현된 코드에는 단순히 모든 디코더에 대해 공통적으로 q,k를 계산할 뿐이었음. Shared Attention의 유용성에 대한 정량적 성능 비교가 없고 오직 정성적 비교 밖에 존재하지 않음. 따라서 Swin이 Multi-Task Learning에 효과적이어서 성능 향상이 일어났는지, Shared Attention을 사용해서 일어났는지 알 수가 없음.

Summary

Motivation

Method

file-20250520213205825.png

Method 검증

데이터셋 및 실험 설정

페어와이즈 학습 결과

6-작업 통합 성능

도메인 일반화 및 적응 능력

결론 및 한계점