Multi-layer Learnable Attention Mask for Multimodal Tasks
While the Self-Attention mechanism in the Transformer model has proven to be effective in many domains, we observe that it is less effective in more diverse settings (e.g. multimodality) due to the varying granularity of each token and the high computational demands of lengthy sequences. To address the challenges, we introduce the Learnable Attention Mask (LAM), strategically designed to globally regulate attention maps and prioritize critical tokens within the sequence. Leveraging the Self-Attention module in a BERT-like transformer network, our approach adeptly captures associations between tokens. The extension of the LAM to a multi-layer version accommodates the varied information aspects embedded at each layer of the Transformer network. Comprehensive experimental validation on various datasets, such as MADv2, QVHighlights, ImageNet 1K, and MSRVTT, demonstrates the efficacy of the LAM, exemplifying its ability to enhance model performance while mitigating redundant computations. This pioneering approach presents a significant advancement in enhancing the understanding of complex scenarios, such as in movie understanding.
Problem:: Transformer의 Self-Attention은 다양한 Token Granularity와 긴 Sequence의 높은 계산 비용으로 인해 Multimodal 환경에서 효율이 저하됨 / 모든 Token이 동일한 중요도를 갖지 않음에도 불구하고 이를 동적으로 조절하는 메커니즘이 Computer Vision 분야에서 부족함
Solution:: 입력 Sequence 전체를 보고 중요 Token을 우선순위화하여 Attention Map을 조절하는 Learnable Attention Mask (LAM) 제안 / Transformer의 각 Layer가 다른 정보 측면을 처리하므로, Layer별 Context에 맞는 Mask를 동적으로 학습하는 Multi-Layer LAM으로 확장
Novelty:: 전체 입력 Sequence를 기반으로 동적으로 학습되는 Attention Mask를 통해 Multimodal Token 간의 복잡한 연관성을 전역적으로 포착 / Ablation Study를 통해 LAM의 효과가 단순한 Parameter 증가가 아닌 선택적 Attention 능력임을 보임
Note:: 마스크를 씌우는 것은 계산할 토큰 수를 줄이는건 아니므로, 연산량이 감소하지는 않음 / 이상적으로 학습된 Self-Attention은 LAM이 없어도 동작하겠지만, LAM을 통한 Inductive Bias로 모델 학습을 쉽게 했다고 볼 수 있음
Summary
Motivation

(a)는 영화 장면에서 시간적으로 정렬된 Video Token과 Audio Token을 보여줌.
- Transformer의 Self-Attention 메커니즘은 Token 간의 지역적 연관성을 계산하는 데 효과적이지만, 특히 다양한 Modality의 Token을 처리할 때 몇 가지 단점이 관찰됨 → 다양한 Modality는 정보의 Granularity가 달라 문제를 야기할 수 있음.
- (a)의 "Joanna's shouts"와 같은 특정 Audio Token이 장면의 여러 Video Token과 연관될 수 있음 → Self-Attention이 주로 Token 대 Token의 지역적 연관성을 포착하는 방식((b)의 Self-Attention Map 참고)으로는 효과적으로 처리하기 어려움
- 이러한 연관성은 단순한 시간적 인접성을 넘어, 하나의 Modality에 있는 각 Token이 다른 Modality의 여러 Token과, 심지어는 Token Sub-sequence 간에도 형성될 수 있어 복잡성을 더함.
- 또한, Token Sequence가 길어질수록 풍부한 정보를 제공하지만, Attention 메커니즘의 계산 요구량은 입력 Token 길이에 따라 증가하여 많은 수의 Token을 효과적으로 처리하는 데 제약이 됨.
- 복잡한 입력 Sequence의 모든 Token이 동일한 중요도를 갖지 않음 → 전체 Sequence에 대한 전역적 시각을 통해 중요한 Token을 우선순위화하는 접근 방식을 제안
- 동적으로 Update되는 Masking 메커니즘의 효과는 이전 연구들에서 입증되었으나, Computer Vision 분야에서는 상대적으로 연구가 부족하여, 다양한 Vision Task에 걸쳐 동적 Token Masking의 영향을 분석하고자 함.
Method
Learnable Attention Mask (LAM)

- LAM Module은 전체 Token Sequence
(단일 또는 Multimodal)를 입력받아 Mask 을 출력하며, 이는 주로 Linear Layer 기반의 Feedforward Network (FFN)으로 구성됨. - Self-Attention의 경우, Mask
의 크기는 ( : 입력 Sequence 길이)이며, 다음과 같이 표현됨: - Cross-Attention의 경우, Mask
의 크기는 ( : Query 길이, : Key 길이)이며, Query 와 Key 의 Dot Product를 입력으로 사용함: - LAM Module의 Forward Pass는 다음과 같이 정의됨 (L: LAM 내 총 Layer 수):
, for
- 생성된 Mask는 Transformer Layer Stack 전체에 적용되거나 각 Layer별로 개별적으로 Scaling 될 수 있음.
Multi-Layer Learnable Attention Mask
- Transformer의 각 Layer가 서로 다른 정보 측면을 처리한다는 점에서 착안하여, LAM을 각 Layer별로 적용하여 해당 Layer의 Context에 맞는 Mask
를 동적으로 학습하도록 확장함. -번째 Layer의 Attention 는 해당 Layer의 입력 로부터 생성된 Mask 를 사용하여 다음과 같이 계산됨: - 이를 통해 각 Layer는 입력 Sequence의 변화하는 Context에 따라 Attention 패턴을 다르게 학습할 수 있음.
Method 검증
Experimental Setup
- Tasks & Datasets:
- Audio Description (AD) Generation (MADv2 Dataset 사용): Video Clip에 대한 자연어 설명을 생성하는 Task.
- Moment Retrieval and Highlight Detection (QVHighlights Dataset 사용): 자연어 Query에 해당하는 Video 내 특정 시간적 구간(Moment)을 찾거나 중요한 부분(Highlight)을 감지하는 Task.
- Image Classification (ImageNet 1K Dataset 사용): Image를 사전 정의된 Category로 분류하는 Task.
- Video Captioning (MSRVTT Dataset 사용): Video Clip의 내용을 설명하는 자연어 Caption을 생성하는 Task.
- Baselines:
- LlaMA Adapter V2: Transformer 기반 Audiovisual Encoder를 사용하는 LLM Adapter로, Parameter 효율적인 Fine-tuning을 위해 설계됨. 본 연구에서는 Audio Description 생성 Task의 Baseline으로 사용됨.
- QD-DETR: Query에 의존적인 Video 표현 방식을 사용하여 Moment Retrieval 및 Highlight Detection을 수행하는 모델.
- SwinBERT: Video Captioning을 위해 Sparse Attention을 사용하는 End-to-End Transformer 모델.
- ViT Base: Vision Transformer의 기본 모델로, Image를 Patch Sequence로 처리하여 Classification 등의 Task를 수행함.
- LAM Module은 각 Baseline 모델의 Encoder에만 추가되었으며, SwinBERT의 경우 기존의 고정된 학습 가능 Mask를 LAM 방식으로 대체함.
Experimental Results
Performance on Multimodal Encoders
- 제안된 LAM 방법은 Multimodal Encoder에 적용했을 때 상당한 성능 향상을 보임.
- Audio Description (AD) Task
- 실험 방법: MADv2 Dataset에서 LlaMA Adapter V2 Baseline과 Audio Description 생성 성능을 R-L, C, R@5/16 지표로 비교.
- 정량적 성능: 제안된 LAM을 적용한 모델은 LlaMA Baseline (R-L 10.7, C 9.4, R@5/16 43.4) 대비 모든 지표에서 성능이 향상되어 R-L 13.5, C 18.6, R@5/16 56.1을 달성했으며, 특히 R@5/16에서 12.7의 가장 큰 향상폭을 보임.
- 통찰: LAM을 적용한 모델이 모든 지표에서 Baseline 대비 상당한 성능 향상을 보였으며, 특히 R@5/16에서 가장 큰 향상폭(12.7)을 보여 Multimodal 입력의 시간적 연관성을 더 잘 파악함을 시사.
- Moment Retrieval Task
- 실험 방법: QVHighlights Dataset에서 QD-DETR Baseline과 Moment Retrieval 성능을 R1@IoU0.7, mAP (Avg) 지표로 비교.
- 정량적 성능: LAM은 QD-DETR Baseline (R1@IoU0.7 44.98, mAP (Avg) 39.86) 대비 R1@IoU0.7에서 46.94로 1.96, mAP (Avg)에서 42.32로 2.46만큼 성능을 향상시킴.
- 통찰: LAM은 Recall과 Mean Average Precision 모두 향상시켜, Video 내 특정 Moment를 더 잘 localize 함을 나타냄.
- Highlights Detection
- 실험 방법: QVHighlights Dataset에서 QD-DETR Baseline과 Highlights Detection 성능을 MAP, HIT@1 지표로 비교 (VeryGood confidence).
- 정량적 성능: LAM을 적용했을 때 QD-DETR Baseline (MAP 38.94, HIT@1 62.40)에 비해 MAP는 39.70 (0.76 향상), HIT@1은 63.33 (0.93 향상)으로 개선됨.
- 통찰: LAM은 Highlight Detection 정확도를 향상시킴.
- Takeaway: 제안된 방법은 Single-Modality Sequence보다 Multimodal Sequence를 더 효과적으로 활용함.
Performance on Single-Modality Encoders
- Single-Modality Encoder에 적용했을 때는 대부분의 지표에서 미미한 개선이나 때로는 성능 저하가 관찰됨.
- Image Classification
- 실험 방법: ImageNet 1K Dataset에서 ViT Base Baseline과 Image Classification 성능을 Acc-Top1, Acc-Top5 지표로 비교.
- 정량적 성능: LAM은 ViT Base Baseline (Acc-Top1 82.71, Acc-Top5 96.32) 대비 Acc-Top1 83.45 (0.74 향상), Acc-Top5 96.59 (0.27 향상)로 약간의 성능 개선을 보임.
- 통찰: Acc-Top1에서 약간의 성능 향상(0.74)이 관찰됨.
- Video Captioning Task
- 실험 방법: MSRVTT Dataset에서 SwinBERT Baseline과 Video Captioning 성능을 B4, R-L, M, C, S 지표로 비교.
- 정량적 성능: LAM은 SwinBERT Baseline (B4 42.82, R-L 62.06, M 30.39, C 51.96, S 7.64)과 비교하여 B4에서 -0.79, R-L에서 -0.01로 소폭 하락했으나, M, C, S 지표에서는 각각 0.21, 0.28, 0.39만큼 미미하게 향상됨.
- 통찰: B4 지표에서 성능 감소(-0.79)가 있었으나 C, S 지표에서는 약간의 증가(각각 0.28, 0.39)가 관찰됨.
Ablation Study
- Attention Mask Influence
- 실험 방법: MADv2 Dataset의 일부(1010개 Instance)를 사용하여 Audio Description 생성 작업에 대한 네 가지 Attention Mask 방식(Full Attention, SwinBERT의 Learnable Sparse Mask, 제안된 LAM, 제안된 Multi-Layer LAM)의 성능을 Rouge-L 및 CIDEr 지표로 비교.
- 정량적 성능: Full Attention (CIDEr 15.46) 대비 제안된 LAM은 CIDEr 16.58을, Multi-Layer LAM은 CIDEr 17.11을 달성하여 성능이 향상되었으나, SwinBERT 방식의 고정된 Mask는 CIDEr 9.72로 성능이 저하됨.
- 통찰: 제안된 LAM은 Full Attention Baseline보다 성능이 크게 향상되었으며, 각 Transformer Layer에 동적 Mask를 적용한 Multi-Layer LAM이 가장 좋은 성능을 달성함. 반면, SwinBERT의 Sparse Learnable Mask는 MADv2 Scene의 동적인 특성(Shot 변경, Transition, Soundtrack)을 포착하지 못해 성능이 저하됨.
- Performance: Parameters vs. LAM Module Influence
- 실험 방법: Audio Description 생성 작업(MADv2 subset)에서 세 가지 모델(Masking 없는 Baseline, Multi-Layer LAM과 동일한 Parameter 수를 갖는 Full Attention Transformer, Multi-Layer LAM)의 성능을 비교.
- 정량적 성능: 단순히 Parameter 수를 늘린 모델(CIDEr 12.87)은 Baseline(CIDEr 15.46)보다 성능이 하락한 반면, Multi-Layer LAM은 CIDEr 17.11을 달성함.
- 통찰: 단순히 Parameter 수를 늘리는 것만으로는 성능 향상으로 이어지지 않으며, LAM의 성능은 Token Attention을 선택적으로 강조하는 능력에서 비롯됨을 시사함.
Qualitative Analysis

- 실험 내용: MADv2-eval Dataset의 특정 Instance에 대한 Multi-Layer LAM의 Audio Description 생성 작업 시각화 및 Attention Weight 분포 분석.
- 정성적 결과:
- 시각적 구성이 정적인 장면(예: 집 뒷마당)에서는 LAM Module이 25개 중 3개의 Visual Token만 활성화하고 Audio Token에는 최소한의 Attention을 할당함.
- 반면, 청각적 요소가 동적일 경우(바람, 벌레, 개구리 소리에서 시계 소리로 전환), 모델은 Ground Truth Audio Description("A set of swings and a climbing frame stand in a rural backyard, along with a picnic table and a brick barbecue")에 맞춰 야외 소리(바람, 벌레, 개구리)에 실내 소리(시계 똑딱거림)보다 우선적으로 Attention을 할당함.
- Full Attention과 비교하여 LAM을 사용하면 Attention Weight 분포가 왼쪽으로 치우쳐 많은 Weight가 0에 가까워지며, 이는 더 적은 Token에 집중된 Attention을 의미함.
- 통찰: LAM은 특정 Token을 식별하고 우선순위를 지정하여 Multimodal Scene 해석을 향상시키는 능력이 있음을 보여줌. LAM은 시각 정보가 정적일 때 불필요한 시각 Token에 대한 Attention을 줄이고, 내용과 관련된 Modality(예: 장면 묘사에 중요한 오디오 단서)에 Attention을 집중시킴. Attention Weight 분포의 변화는 LAM이 계산 효율성을 높일 수 있음을 시사함.